美国小姐的年龄,会影响死于暖气的人数吗?
看到题目是不是顿感疑惑?只看表象很容易得出这样的结论,需要慎重看待看似相关的关系。
前两天有篇很火的文章《幸好不是所有聪明人都在批发快感》,批判了目前主流的互联网生产力都聚焦在提供用户“奶头乐”(Tittytainment),并赞扬了少部分不局限在眼前的苟且,依旧致力于全球人民福祉的公司与项目(友情提示:以IBM为关键字,在文中被cue了12次)。
当然,观点我同意,正如那位热衷于从0到1的大佬彼得·蒂尔当年也抱怨过:“我们想要一辆会飞的汽车,得到的却是140个字符。”
被点歪的科技树,仿佛在把社会引向尼尔·波斯曼所构想的“娱乐至死”,并且“文化向技术投降”的地步。
但原文中为了责怪大众科技加深了人们的负面情绪,引用了如下的论据和证明方式。
“随着iPhone的发布,美国中学生的孤独感却几乎直线上升”
我无意为iPhone是否真实导致了这种情况的发生辩护,但单纯从文中对于数据的使用及论证方式,在未经相关性验证的情况下,将不特定事件定性成为因果关系。不仅没有依据,并且煽动大众对于事实的认知。捎带使得我对全文的动机产生怀疑(再一次提示,IBM作为正面案例,在文中被cue了12次)。
A导致了B?
作为互联网行业的数据分析工作者,日常会处理大量的信息来判断平台的健康程度以及制定优化办法。其中,需要解释两组波动数据间的关系时,就需要花一定时间去 思考数据间的关系是因果,还是相关?
举个“因果关系”的例子:
先前在滴滴运营快车时,当其他人为因素(如补贴、司机运力等)不变,天气状况是直接影响每天订单量的原因,呈“微笑曲线”状。三伏天、冬至或者暴雨的极端天气,都可以导致订单量大幅增加;风和日丽的天气大家都愿意走路去公共交通站,使用更便宜的交通方式。
这是通过常理可以推断,并且基于数据验证后的结果。
而对于相关关系,如果一个事件变化后,另一个事件也随之发生变化,但二者不属于原因和结果的关系,则称它们之间存在“相关关系”。存在相关关系的两个事件之间虽然有关联,但不属于因果关系。
日本经济学家中室牧子在判断区分因果及相关关系时,列举了三条判断原则:
1. 是否“纯属巧合”?
两个事件看似有关,其实只是“纯属巧合”。像这样,两组数据的变化趋势只是碰巧相似的现象被称为“伪相关”。
美国分析师维根·泰勒在他的著作《伪相关》(SpuriousCorrelations)和网站(tylervigen.com)就介绍了非常多这样的“伪相关”关系。
比如,文章标题中提到的“美国小姐的年龄”和“全美死于暖气的人数”变化一致,相关系数达到0.87;数据高度相关,但这两个现象间有必然的关系吗?
又比如,“美国在科技、太空领域研究的投入”与“用上吊、窒息而自杀的人数”,相关系数更是高达0.998。科学领域每投入1块钱,就会激励更多人去上吊。变量数值尽管相关,但这两个事实之间又有什么样的直接关联?
2. 是否存在“第三个变量”
其次,我们必须要质疑是否存在同时影响原因和结果的“第三变量”,或者说是“混杂因素”。它可以把纯粹的相关关系包装成因果关系,干扰人们判断。
在美国中西部的一个小镇,地方警察局发现冰淇淋消费量越多,犯罪率就越高。这个例子中,冰淇淋消费量和犯罪率是正相关的;但并不意味着冰淇凌消费的增多导致了犯罪率的上升,更不可能通过减少冰淇凌的销售来降低犯罪率。
然而,我们猜测存在某个变量同时和冰淇淋消费量、犯罪率相关。这个变量可能是室外温度,当室外气温变暖,如在夏天,就会有更多犯罪(白天更长,人们多开窗口等);因为天气变暖,人们更享受吃冰淇凌的乐趣。相对地,在又长又黑暗的寒冬,冰淇凌的消费就减少,同时犯罪也越少。
当然这也只是一种基于现实生活的猜测,并无切实的依据。
3. 是否存在“逆向的因果关系”
还是拿警察与犯罪的例子。
通常警察多的地区,犯罪案件数量也多。但是,将犯罪数量的多少归结为警察人数的增多,难道是在暗示犯罪都是由警察引起的吗(警察→犯罪)?正好相反,不如说因为某处是犯罪多发的危险地区,所以部署了大量警力,这么想可能才更合理(犯罪→警察)。
本以为是原因的事件其实是结果,本以为是结果的事件其实却是原因,这种状态被称为“逆向因果关系”。
iPhone真的导致美国高中生倍感孤独吗?
回到文中的例子,iPhone是不是真的会导致美国高中生倍感孤独?
要得出这个结论,显然需要大量的分组实验(A/B test)进行更深入的研究。
比如,在同一学校,不用iPhone的高中生分一组,用iPhone的高中生分一组。
用iPhone的学生中,又需要依据使用时长,APP使用偏好再进行区分(要知道Facebook面向高中生,Twitter这样的社交网络仿佛与“孤独”心理更有关联,他们的变化与推出也都是在05-06年间),再去论证上述的结论。
结语
在目前没有足够数据支撑的情况下,我无法下定论。
每个人是一个社会关系的总和,包含了各类我们称之为“不确定性”的东西。同时,科技的发展本身一直在充满争议,“科技伦理”(Technical Ethics)在大数据逐渐成熟、AI起势的情况下,越发重要。
此时,任何企图把人、心理和科技三者相关联的结论,尤其需要谨慎对待。
作者:黄嘉伟,专注银行在移动金融领域内的战略、运营和数据咨询服务
本文由 @黄嘉伟 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Unsplash ,基于 CC0 协议
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: