AI产品经理需要了解的概率论通识:4个概念3个问题
笔者基于工作实践,分享了非常实用的4个概率论概念和3个经典的概率论问题,供大家参考学习。
我认为AI产品经理应该学一些概率知识,是否理解概率,直接决定一个人对AI智能的了解程度。
现阶段的自然语音处理,图像识别,等都已不是专家系统,而是以数学为基础,以概率论为方法,以算法为模型的最优解决方案。
下面就了解一下几个概率论概念:
一、概率论概念
1. 随机
有些事情是无缘无故地发生的(随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件),总会有人买彩票中奖,而这一期彩票中奖,跟他是不是好人,他在之前各期买过多少彩票,他是否关注中奖号码的走势,没有任何关系。
理解随机性,我们就知道很多事情发生就发生了,没有太大可供解读的意义。
2. 独立随机事件
有些事情是没有因果关系的(事件A发生还是不发生,对事件B发生不发生不产生任何影响,两个事件相互独立),我们可以得到一个结论:独立随机事件的发生是没有规律和不可预测的,这是一个非常重要的智慧。
你投三次骰子,三次不一样和三次都一样的概率是一样的。
3. 数学期望
是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
例如甲乙两个机器人猜拳,他们两人获胜的机率相等;
比赛规则是五局三胜(先胜3局者为赢家),不考虑平局(即每局必出胜负), 赢家可以获得100元。前三局,甲胜了2局,乙胜了1局,这时中止了比赛,那么如何分配比较公平?
利用计算机的随机种子模拟500次接下来2局的情况, 统计2人胜利的次数之比, 按照这个比率来分配100元。
甲输掉后两局的可能性只有(1/2)×(1/2)=1/4,也就是说甲赢得最终胜利的概率为=3/4,甲有75%的期望获得100元;则乙只25%的期望获得100元。
甲乙双方最终胜利的客观期望分别为75%和25%,因此甲应分得奖金的100*75%=75元,数学期望由此而来。
4. 大数定理
当我们大量重复某一相同的实验的时候,其最后的实验结果可能会稳定在某一数值附近。
就像抛硬币一样,当我们不断地抛,抛个上千次,甚至上万次,我们会发现,正面或者反面向上的次数都会接近一半。
大数法则反映了这世界的一个基本规律:在一个包含众多个体的大群体中,由于偶然性而产生的个体差异,着眼在一个个的个体上看,是杂乱无章、毫无规律、难于预测的。
但由于大数法则的作用,整个群体却能呈现某种稳定的形态。赌场的庄家在规则上占有少许优势,玩的次数越多,这种优势越能显现出来。
但是如果统计数据很少,就很容易出现特别不均匀的情况。这个现象被诺奖得主丹尼尔·卡尼曼戏称为“小数定律”。卡尼曼说,如果我们不理解小数定律,就不能真正理解大数定律。
例如iPod最早推出“随机播放”功能的时候,用户发现有些歌曲会被重复播放,他们据此认为播放根本不随机。苹果公司只好放弃真正的随机算法,用乔布斯本人的话说,就是改进以后的算法使播放“更不随机以至于让人感觉更随机”。
二、经典概率论问题
1. 三门问题
“假设你正在参加一个游戏节目,你被要求在三扇门中选择一扇:其中一扇后面有一辆车;其余两扇后面则是山羊。假设你选择了一号门,然后知道后面是什么的主持人,开启了另一个有山羊的三号门。然后他问你:‘你想选择二号门吗?’此时换门还是不换门?”
如果不交换,保持原状的话,得汽车的概率是1/3。如果交换的话,是否能增加抽到汽车的概率呢?
答案是会。转换选择(交换)可以增加参赛者的机会,如果参赛者同意“换门”,他赢得汽车的概率从1/3增加到2/3。
错误的思维方式:当主持人打开一扇后面有羊的门之后,问题就变成了有两扇门,一扇门里有汽车,一扇门里有羊,选择任何一个门获的汽车的概率必然是相同的,也就是1/2。
上面这种方式的问题就是,打开一扇门后,并不等价于在两扇门里做选择,而是你是否需要转换。
人的直觉往往是不可信的,关于“换门”的获奖率不是一个独立事件,必须以第一次的选择作为基础。在概率学当中,这种情况叫做 条件概率 。
我们可以通过公式计算:
不换门的获奖率 = (1/3 X 100%)+(1/3 X 0%)+(1/3 X 0%)=1/3
换门的获奖率 = (1/3 X 0%)+(1/3 X 100%)+(1/3 X 100%)=2/3
如果我们在生活中遇到了类似的问题,例如开发新产品有3种选择,我们确信有且只有一种选择可以获得成功。但是,我们完全无法判断哪种更好,于是随机选择了一种。
还没等我们开发,另外一家倒霉蛋公司刚好开发了第二种产品,而且恶评如潮。此时我们果断更换到第三种模式,会大大提高我们的成功率。
2. 生日悖论
假设你工作在一个23人的办公室。那么,你办公室中两个人生日相同的几率是多少呢?我们也许是这样来思考,365天,遇到同一天生日的概率为1/365,或0.0027%!
那么,考虑一下这样的问题,在一个房间里,至少有多少人,才能使其中两个人的生日是同一天的可能性超过50%?
有人可能认为房间人数起码得达到183,因为183是366的一半。但是我告诉你,两个人的生日是同一天的可能性超过50%,只需要23个人。
把所有23个独立概率相乘,即可得到所有人生日都不相同的概率为:(365/365)× (364/365) × … ×(343/365) ,得出结果为0.491。
那么,再用1减去0.497,就可以得到23个人中有至少两个人生日相同的概率为0.509,即50.9%,超过一半的可能性。
按照这个算法,当人数达到 70 时,存在两个人生日相同的概率就上升到了 99.9%,基本可以认为是 100% 了。可是直觉告诉我们不应该啊,既然这么大的概率,我怎么就没遇到与我生日相同的那个有缘人呢?
问题就在这里,我们问的是 至少有两个人生日 相同,而不是与 你 生日相同!!!你这种想法是以自我为中心,而题目的概率是在描述整体。也就是说「存在」的含义是指 23 人中的任意两个人,涉及排列组合,大概率和你这个个体没啥关系。
如果你非要计算存在和自己生日相同的人的概率是多少,可以这样计算:
1 - P(22 个人都和我的生日不同) = 1 -(364/365)^22 = 0.06
生日悖论告诉我们,人类的本质是以自我为中心的,我们非常倾向于从自己的角度去看待和思考问题,太过自我就会扭曲事实。
有研究表明,小孩在一岁之前没有形成自我意识,当你拿一把扇子给他看,一面画着猫,一面画着狗,你先给他看猫,再给他看狗,他会认为你看到的和他一样,他看到的是什么,你就看到的是什么。
屁股决定脑袋,也是这个意思,当你选定立场时应该非常小心。因为你所看到的都是基于你的立场。有一句话说的很好:你可以自由的表达观点,但不要轻易选定立场。
3. 首位数字定律
统计一下世界上237个国家的人口数量,你觉得其中以1开头的数会占多大比例,而以9开头的数又占多大比例呢?如果你的回答是都为1/9,恭喜你你是正常人;
但是事实却不是如此:以1开头的数惊人的占到了27%,而以9开头的数却只占5%。为什么会相差这么大呢?这就是本福特定律在起作用。
本福特定律:以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍,推广来说,越大的数字,以它为首几位的数出现的机率就越低;
本福德和纽康都从数据中总结出首位数字为n的概率公式是:
P(n)= log d(1+1/n)
其中d取决于数据使用的进位制,对十进制数据而言,d=10。
在十进制中,首位数字出现的概率为:
这个定律是一个非常神奇的定律,它的适用范围异常的广泛,几乎所有日常生活中没有人为规则的统计数据都满足这个定律。
比如说世界各国人口数量、各国国土面积、账本、物理化学常数、数学物理课本后面的答案、放射性半衰期等等数据居然都符合本福特定律。
在假账中,数字5和6是最常见的开头数字,而不是符合定律的数字1,这就表明伪造者试图在账目中间“隐藏”数据。
曾是美国最大的能源交易商、年营业收入达近千亿美元、股票市值最高可达700多亿美元、全球500强中排名第七的安然公司,2001年在事先没有任何征兆的情况下突然宣布破产;
事后人们发现安然公司在2001年度到2002年度所公布的每股盈利数字不符合“本福特定律”,这些数字的使用频率与这一定律有较大的偏差,这证明了安然公司的高层领导确实改动过数据。
作为产品经理,对数据的敏感性及基础的判断,可以帮助我们在工作中更快的完成任务。
三、总结
AI产品经理要更理性,数学是锻炼理性思维的最好的工具,了解并掌握基础的概率论通识,能帮产品经理更好的理解算法模型和处理日常的数据处理工作。
最后问你个问题,如果战斗中炸弹在你身边爆炸,你应该迅速跳进那个弹坑,因为两颗炸弹不大可能打到同一个地方。对吗?
作者:老张,宜信集团保险事业部智能保险产品负责人,运营军师联盟创始人之一,《运营实战手册》作者之一。
本文由 @老张 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: