数据说谎的艺术 || 数据控

数据说谎的艺术 || 数据控

来源: 与数据同行

采编: 赵蓉


对于大数据这么一个快速发展的新生事物,没有谁可以说是真正的权威,具备批判精神有利于理论和应用的百花齐放。

但你要戳穿它是不容易的,不如跟着笔者走一遭,看看你信了多少回?


  • 编造的谎言

这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后, 研究人员突然发现: 跟尿布一起搭配购买最多的商品,竟是啤酒!尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。这个故事虽经典,但是让你意想不到的是:案例是编造的,这个经典的“啤酒和尿布” (Beer and Diapers)的案例,不仅是《大数据》类图书的常客,事实上,它更是无数次流连于“数据挖掘”之类的书籍中,特别是用来解释“关联规则(Association Rule)”的概念,更是“居家旅行,必备之良药(周星驰语)”。实际上,它是Teradata公司一位经理编出来的“故事”,目的是让数据分析看起来更有力,更有趣,而在历史上从没有发生过。

数据挖掘史上有很多著名的经典案例,但遗憾的是,历史有时候赋予太多的光圈和晕轮,但还原历史的真相,是每一个人的责任,不论那真相是什么,但这个并不影响数据挖掘带来的成就,历史车轮的推动,真相和谎言总是伴随。


  • 困惑的专家


“专家”曾经是一个让人竖然起敬的头衔,然而现在是一个专家充斥的年代,你打开电视,草草扫过几个频道,就能遇到形形式式的专家,大到国际民生、经济形势,小到股票涨落、养生保健的各个领域生产着形形式式的意见,各种时事评论类的新闻上,经常会引用专家的言论,“据专家预测……”,这些专家看起来对于预测很自信,但他们真得能够有效预测吗?伯克利大学的心理学家TetLock曾经做过一个长期跟踪研究。他选择了284位专家,让这些专家预测是否将要发生某些政治或经济事件,例如,南非会不会以非暴力方式结束种族隔离?,在约20年中,TetLock收集了这些专家的82361个预测,这些问题大多以三选一的方式出现,然而,专家预测和事态实际发展的对比结果出人预料,哪怕让三岁婴儿在红黄蓝三个球中随机挑一个都比这些专家的预测更好。当然,专家自己并不承认他们的预测能力不佳,当预测正确时,他们将之归功于自己的洞察和专业能力,如果错误,要么怪形式超出常规,要么消失或根本不承认自己错了。

很多看似专家主导的专业领域,专家表现也差强人意,Olivier等人曾经对金融分析师在1987至2004年的预测进行研究,在20年中,分析师对于每股盈利这个重要经济指标预测能力很差,甚至不如简单的把上一年每股盈利作为下一年预测效果好。从这个角度看,这些分析师什么也没做。

虽然这些例子有点久远,但法则并未失效,当你碰到满口数据分析预测的专家时,请以批判的精神去看这些专家和数据,在大量的领域,专家已经被用烂了,无法证伪的任何事实都值得怀疑。


  •  牵强的附会

谈影视大数据,怎么都绕不开《纸牌屋》。“Netflix通过分析3000万北美用户观看视频的行为数据,发现凯文·史派西、大卫·芬奇和‘英剧《纸牌屋》’’3个关键词的受众存在交集,由此预测将三种元素结合在一起的片子将会大火特火。”这段模凌两可的描述真的太诱人了,简直像要发起一场影视革命!但回到原点,美剧《纸牌屋》成功的原因,真的就是“1+1+1”这么简单吗?数据倘若真的这么NB,那为什么Netflix的第一部自制剧《莉莉海默》和《纸牌屋》之后的自制剧《铁杉树丛》并没有复制辉煌呢?这不禁令人生疑:如果大数据应用如此可行,Netflix为何情有独钟《纸牌屋》。

真相被淹没在有关《纸牌屋》和大数据关系的海量报道中。早在去年7月,美剧《纸牌屋》改编方、美国独立制片公司MRC的联合CEO莫迪·维克茨克(Modi Wiczyk)就公开表示,此剧的诞生源自公司一名实习生的推荐。你没看错,是至今姓甚名谁都不知道的实习生,和大数据没有半毛钱关系。事实上,《纸牌屋》的诞生,决定性因素不是“大数据”,而是影视圈里永恒的关键词——“资金”和“人脉”,这其中,数据最多只是一个指南针,甚至只是一个手电筒。可以说,《纸牌屋》的成功宣传了大数据,而不是大数据造就了《纸牌屋》,大数据只是Netflix在宣传《纸牌屋》的过程中使用的噱头。

现在,就看Netflix真正用大数据算出的下一部自制剧是否会大红大紫了。亦或仅仅是个牵强的附会。


  • 失效的法则

谷歌在2008年推出的流感趋势系统监测全美的网络搜索,寻找与流感相关的词语,比如“咳嗽”和“发烧”等。它利用这些搜索来提前9个星期预测可能与流感相关的就医量,这个案例被当成大数据应用的一个经典案例。

但是,没有人关注这个事情的然后,真相是这样的,在过去3年,该系统一直高估与流感相关的就医量,在这类数据最有用的流感季节高峰期尤其预测不准确。在2012/2013流感季节,它预测的就医量是美国疾控中心(CDC)最终记录结果的两倍;在2011/2012流感季节,它高估了逾50%,原因可能是媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响Google的预测。

很多案例刚开始看起来很惊艳,但看久了,不仅仅会审美疲劳,美人自己也会迟暮,总要变化的看数据,未来大数据的例子也需要与时俱进。


  • 有偏的样本

在1936年美国总统选举前,一份颇有名气的杂志(Literary Digest)的工作人员做了一次民意测验。调查兰顿(A.Landon)(当时任堪萨斯州州长)和罗斯福(F.D.Roosevelt)(当时总统)中谁将当选下一届总统,为了了解公众意向,调查者通过电话簿和车辆登记簿上的名单给一大批人发了调查表(注意在1936年电话和汽车只有少数富人拥有)。通过分析收回的调查表,显示兰顿非常受欢迎,于是此杂志预测兰顿将在选举中获胜。实际选举结果正好相反,最后罗斯福选举获胜。

为什么会产生这种预测失误呢?原因在于《文摘》所选的样本限定在了拥有电话薄和车辆登记簿的一群人身上,但是在那个年代,有能力购买电话和订阅杂志的人并不能真正代表选民.至少在经济上,他们是极特殊的,是有偏差的,你们是要负责任的。又比如今年春节爆料的男人比女人更孝顺的言语,都是有偏样本的典型。

几年前,一个叫做可尼斯博士(Dr.Cornish)的牙粉上市了,并宣传“在治疗臼齿方面获得了极大的成功”,因为该牙粉中含有尿素,而经过实验室的证明,尿素对于治疗臼齿有极大功效。然而,值得一提的是,实验室的结论完全先入为主而且仅仅建立在6个案例之上,没有披露的数据其实很可能是经过人为操纵的数据,当数据的样本量越小最终的结果就越多变,然后在众多的结果中选择有利于自己的一种,就可以诱导公众进行我们所期待的行动。

统计抽样,总要随机化和足够的数量,这是基本的原则,任何发布数据的单位,总要披露统计的方式,我们有权利知道,否则,就值得怀疑。


  • 欺人的算法

最有欺骗性的的例子莫过于统计学中著名的辛普森悖论,看看来自斯坦福讲义里的一个简单例子某大学历史系和地理系招生,共有13男13女报名。

                Men        Women

History        1/5   <     2/8

Geography  6/8   <    4/5

University   7/13  >    6/13

历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:

(1)  整个学校统计,男生录取率(7/13)高于女生录取率(6/13)

(2)  但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)。

你有没看出来问题?

英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后引发强烈社会反响。真的是这样吗?原来,这个 “1%” 的分母不是“有资格休假的父亲”,而是“所有男性”。有人指出,如果这么算,即使当年所有新生父亲都选择休假,调查得到的数字也只不过是 5%。

很多时候,让一个数据变大变小很简单,分母上口径上动点手脚,什么目标都实现了。数字不会说谎,但说谎的人会想出办法。


  • 相关的误解

科学家从几万人胳膊长度和治理测试的统计数据中,发现人的智力水平个胳膊长度是正相关的:胳膊长的人,智力一般也较高。

很多事物表现出相关性,之间却不存在因果关系,两个事情的关联关系并不能说明其中一个变化能引起另一个的变化。关联却无因果很可能是他们同受第三方因素的影响,上述数据的统计范围从不足1岁的孩子到完全成长的成年人,在人成长中,体型会逐渐变大,智力会发展,实际上,两者都是随着年龄变量进行变化,从而变现出相关性。


  • 无意的精确

同许多受教育的孩子一样,小王和小红接受了智力测试,小王的智商是101,小红只有98。当然你很清楚:智商的平均数是100,即100意味着“正常”。 哈.小王是比较聪明的孩子,而且他的智商高于平均水平,小红则低于平均水平。对此我们先不详细评论。任何类似的结论纯粹都是胡说。与其他抽样的结果一样,代表智力水平的数据也具有统计误差,这个误差将用来衡量该数据的准确度和可信度。然而人们有时会为了一个数学上可论证却小得没有意义的差别费尽力气。这种行为是对这句古训的藐视:只有当差别有意义时才能称之为差别。当前差1-2分落榜的现象比比皆是,的确是统计学的悲哀。


  • 逻辑的悖论

如果我告诉你,当你每天“以每小时70英里的速度疾驶在高速公路上”,如果时间是早上7点,那么你生还的机会将是晚上7点的4倍。证据是,“晚上7点发生的灾难是早上7点的4倍”。但根据这样的证据是否能得到上述的结论?晚上的车祸比早上多,仅仅因为晚上有更多的车和人在高速公路上。单独一个驾驶员在晚上也许会比较危险,但上述的数据却不足以证明这一点。

以同样荒谬的逻辑继续推理下去的话,你还可以证明天气晴朗时驾车比有雾时更危险。因为晴天比雾天多,所以天气晴朗时会有更多的交通意外。但只要运用常识,你我都能知道雾会使驾车变得危险。

再举个例子,美国与西班牙战争爆发后,不少美国人不愿意参军,坦诚因为怕死,针对这种情况,美国军方做了一份统计报告来奉劝大家参军:“据可靠数据统计,美国海军的死亡率是0.9%,而同时期纽约市民的死亡率是1.6%”,潜台词是如果惧怕死亡更应该参军,因为军营比纽约的家中还安全,你能找到这个悖论的原因吗?

再看看“外地人都挺有本事的,看看来这里的个个都很有能耐”,“别人家的孩子都考上了重点中学”,“省级医院的这个科室的病人死亡率甚至比小县城的还高”这些言语,你真得觉得不合理吗?

统计学是一门严谨的逻辑学问,锻炼自己的思考能力总能帮你更容易认识本质。


  • 个体的悲哀

有一个数学教授平生最怕坐飞机,他研究了近20年的统计数据,发现恐怖分子带炸弹上飞机的几率其实非常低,但是他还不安心,他又进一步研究数据发现,两个人同时带炸弹上飞机的几率几乎为零,于是从此他坐飞机都自己携带一枚炸弹。

有时候我们会拿着一些统计数据来预测一些事情,比如你很想知道自己的孩子将来会长多高,你找到统计局得到孩子每个年龄段的平均身高数据,你为自己的孩子当前未达标的身高苦恼不已,但你要知道,统计数据针对的是群体,对于个体它失去了效用,如果要预测个体,看看你自己长多高比统计数据靠谱的多。

有时候,我们混淆了统计和个体的差别,被平均是太正常的事情,因此,大多数时候,股市涨,专家看涨,你还总是亏钱,这是太正常的事情,你自己却无法理解。

11种数据说谎的艺术,总是时不时的出现在我们的周围,无论你多么小心,总会时不时的被欺负一下,用以下颇有讽刺意味的科学家故事结束。

“阿基米德的浴缸、牛顿的苹果、瓦特的茶壶、爱因斯坦的小板凳……科学史上流传着太多我们耳熟能详的故事,它们带着强烈的传奇色彩,在孩提时代曾那样打动我们的心灵,唤起对于天才的崇敬和对于科学的无限向往,然而时至今日,我们再度回头审视这些传说,却发现许多时候,它们的象征意义过于浓厚,从而不可避免掩盖了历史的本来面目,令人吃惊的是,大家从小所熟悉的那些科学家故事,若是仔细推敲起来,几乎没有多少是站得住脚的,传奇最终变成了神话,而我们也终究长大”。

更多数据科学资讯, 关注datahoe






datahoe(gh_27068c29df3e)

查看原文(微信公众号)
文章为作者独立观点,不代表微文榜立场
分享到QQ 分享到微信 分享到微博
datahoe的最新文章
如何零成本用大数据获悉市场行情?

如何零成本用大数据获悉市场行情?

datahoe datahoe

当我们想要创业却对市场行情不甚了解,该如何迅速了解市场行情,以便我们能更好的切入市场?本文作者介绍了一种零成本用大数据获悉市场行情的方法,对你想要了解市场行情非常有帮助。

大数据“下田”|| 新浪潮

大数据“下田”|| 新浪潮

datahoe datahoe

大数据的深入、下潜,不再停留在城市、企业,大数据的应用再次提升了一个层次—应用到最基本的生产、曾经最原始的生产当中

人工智能的革命 || 新浪潮

人工智能的革命 || 新浪潮

datahoe datahoe

最新一期的《经济学人》杂志的封面报道,将人工智能的发展对未来世界的影响和 19 世纪工业革命联系起来,机器的大规模应用是否会让工人大规模失业。而随着人工智能技术的发展,这个问题又被人提了出来。认真地读下去,人工智能的发展将会影响一切。