0%

《拆穿数据胡扯》

书名:《拆穿数据胡扯》
出版社:中信出版集团
背景介绍:知乎上看到了一个小的片段,当时感觉很不错,就买回来看了看,还是有一些我不知道的新东西。

全书的逻辑还是比较顺的,接下来我就封三个部分来概括这本书了。

前言

胡扯的大范围存在是因为以下的原因:
1.动物自发的具有欺诈的策略
2.辟谣成本远大于制造谣言(胡扯)
3.信息传播的低成本

胡扯的定义是:
火车就是全然不顾事实,逻辑连贯性或实际传递的信息,而是利用语言,统计数学,数据图表和其他表现形式,通过分散注意力、威慑或恐吓等方式,达到说服或打动听话人的目的。

胡扯的手段

这一部分主要讲一些常用的胡扯手法,其中的部分具有很高的艺术性。

黑箱

通过用一些门槛相对较高的黑箱来描述事实,听众往往需要付出大成本来打开黑箱,一些情况下成本甚至大于信息本身。因此巨大的门槛掩盖了事实。

因果关系

将一些具有相关性的事实错误的叙述为,具有因果性的事实。

一个具有启发性的例子,为什么常常有人说,帅的男生更渣,本质是,大家挑选对象时,往往因为自身的原因,导致自己的对象要么长相一般但是不渣,或者是长相好但是渣。

也就是说,帅和渣具有负相关性,但是不具有因果关系。

第一,数字的测量具有误差

第二,人对数字的认知具有局限,换句话说,人不具备线性效用

第三,数字可以被修饰

第四,数学滥用,例如一些莫名其妙的公式(每天多努力一点,一年下来就是1.01的365次方)

选择偏移

简单的来说,就是胡扯的艺术就是,选择性的说出事实,并巧妙的铺垫预设

数据可视化

在可视化的过程中,有太多的手脚可以做了,包括修改横纵坐标的比例,修改横纵坐标的起点,以及另一种,在没有数据基础的基础上进行可视化,让人误以为这是数据基础生成的结果。

大数据

第一个重点是,基于大数据训练的机器学习算法,可能出现欠拟合与过拟合的情况。

第二个重点是,神经网络,依旧具有不可解释的特点,需要警惕。

科学的易感性

这个标题我没怎么理解到,感觉是一种奇怪的翻译,其实可以理解为,利用统计学的漏洞。

一个经典的例子,检察官谬误,说是一个人被怀疑有罪,原因是在现场发现了一枚匹配度极高的指纹,这个匹配度出现的概率是:“一千万分支一”。但是这距离真正的有罪证据相差甚远:若指纹库中一共有五千万人的指纹,那么从期望上理解,有5个人的指纹都能达到同等的匹配度。因此有罪的概率是1/5。(读者注:这只是一种估算)

第二个情况,p值操作,简单来说,就是当代大部分本科生在水论文的常用手段,凑出一些满足p值的例子,谎称自己随机获取了这些例子,这例子具有代表性,来通过假设。(读者注:这里不包括读者的大学生活())

辨别胡扯

最后书中给出了一些辨别胡扯的方法:

1.质疑信息来源
(1)信息是谁告诉我的
(2)他是怎么知道的
(3)他传达信息的目的是什么

2.小心不公平的比较

3.小心过好,或过坏的结论

4.注意数量级

还给出了一些回叱胡扯的方法,不过我已经是:放下助人情节,尊重他人命运的路子了,这里也就没有必要记录了。