(本文首发于“刘润”公号,订阅“刘润”公号,和万读者一起洞察商业本质)
前几天,我收到一本书:《刘嘉概率论通识讲义》。
刘嘉。南京大学副教授,得到《概率论22讲》主理人。我还很有幸,是刘嘉老师的大学同班同学。
读完,写得真好。
我常说,数学,是理解万物的秘密。
为什么?
在我的年度演讲上,我讲了一个大数据挖掘的故事。
有一次,被誉为快消品行业的颠覆者萨里格监测到,某品牌的台式制冰机销量很好,但评论很差。
“几个月后,便时不时停止工作了”;
“有时显示冰满了的灯会亮起,但是没有满”;
“一年半,就坏了”。
消费者很想买一款产品,但质量问题,却在阻止他们付钱。这就是机会。
萨里格团队,赶紧开始研究。结果发现,这些问题,都是由抽水泵导致的。于是,他立刻找到了制造商,解决问题,并迅速在亚马逊上推出了自己的制冰机。
很快,这款制冰机的销量,占据了亚马逊总销量的1/4,并最终拿下了搜索结果,排名第一的位置。
这个结果背后,离不开萨里格在浩如烟海的大数据中挖掘出“金矿”的能力。
而对我们每个人来说,随着数字化的深入发展,这个能力对我们每个人来说会变越来越重要。而大数据挖掘最底层其实就是数学,是概率。
所以,借着此书出版之际,我找机会和刘嘉老师进行了一次对话,请他给我们讲讲概率,讲讲大数据给我们带来的变化以及机会。
下面,我就把刘嘉老师的观察分享给你,希望对你有所启发。
—1—个体概率和群体概率有什么不同?人人都说大数据带来了变化,到底有什么变化呢?当然有很多,我今天说说从概率的角度来看,大数据和传统的数据分析最大的差异是——从寻找群体共同特征,到寻找个体独特差异。
这样就把解决问题的视角从事转向了人。
什么意思呢?
首先,我们来说一下什么是个体概率和群体概率。
我讲一个故事,让你感受一下。二胎*策放开后,我同事要去做试管婴儿。医院说,试管婴儿的成功率是50%,这是群体概率。
这是怎么得出来的呢?分母是所有种植试管婴儿的周期数,分子是成功的种植周期数。50%的意思是,一半的周期是成功的。
但对于我同事来说,她做一次,也就是一个种植周期,要么成功,要么失败,要么是%,要么是0%。她需要知道的是,自己的年龄和身体的状况,她这个具体的个体究竟这一次成功的概率是多少?
这里表现出群体概率和个体概率之间的冲突和差异。
医生用群体概率来思考和决策,50%的概率,那么试管婴儿这个技术是值得上市的,因为这样就可以让很多有迫切需求的患者满足愿望。
同样,一个药物,有效率90%,能够缓解或者治愈90%的病人,这就是很好的药了。你看到没有,概率是针对一件事儿来的。
但是,对每一个个体来说,他们有基因的差异、生活习惯的差异,身体条件的差异,每一个患者是用个体概率来体验和承受的。我想,这是医学最难的问题之一吧。
从中间我们能得到什么?
第一,群体概率和个体概率针对的对象不同,回答的问题也不同,不能混淆,也不能相互替代和攻击。
第二,其实,每个个体概率也有个期望值,只是我们常常很难找到。
如果要开启概率论的冷酷时刻,我们设想,我同事要是反复做试管婴儿,次,0次,00次,她成功的概率不会是0,也不会是%,大概率也不是50%,但一定会是一个相对稳定的值,这就是她做试管婴儿的数学期望,是个体概率。
但很明显,我们做不了这个试验。
但是有些事是可以做的,比如某一班航班,它执飞的误点率长时间就会趋于稳定,因为这班航班可能飞了次,我们就有了一个稳定的预期。
—2—概率可以做什么事?了解个体概率,做事的思路与只知道群体概率的时候有什么差别呢?
理解了个体概率和群体概率的差异,就是机会。
疫情前,南京有个涉及航空延误险的案子,大概的情况是:有个人从年至今,她一共实施航空延误险理赔近次,获得理赔金近万元。
不谈法律问题,从概率的角度来说,她是怎么预测对这么多次航班延误的呢?她就是利用个体概率和整体概率不一样的特点,专门寻找延误率高的航班购买航班延误险。比如只寻找极端天气预报下的航班。
这个小群体的出现概率大于整体,所以利用这个BUG可以获利。
保险公司针对的是所有飞机延误的普遍规律,整体概率是针对这件事,它不用管某一班飞机的个体概率。
而如果能计算出每一班具体的飞机延误的概率,我们的服务视角才能转向具体坐这班飞机的这个人身上。
视角从事情转变到人身上,能改变很多事情的逻辑。
举个例子:一家服装店,根据以往的交易数据,我们能得到这家店的转化率,有多少顾客进店之后,有多少人消费,这是个概率。注意,这个概率不是针对客人的,针对这家店的。这是个整体概率。
但你很清楚,人和人之间是不一样的,有的人比如我,就是逛逛,而老耿是真的想去买,我们两个的购买概率是不一样的。但最后都被平均了,形成了整体的转化率,商家是看不到我和老耿之间的差异的。
这时候,我们能做的事是把店开在市口好的地方,也就是流量高的地方,总量多了,转化率不变的情况下,销售额就高了,所谓的坪效就提升了。
但电商网站不一样了,它想寻求的概率是你在这家店买东西的概率,寻求的是个体概率。无论是猜你喜欢,推荐,它的本质是寻找具体某个人,购买某家店商品的概率。这时候,它把购买概率更高的人引入这家店,保持一致的情况下,销售额就能提高。这就是所谓的精准营销、个性化推荐。
再比如,我不知道各位淘宝的亲们,你们有没有注意过淘宝的退货险?还记得多少钱嘛?仔细观察,你会发现这个价格是不断变化的。同样一件商品,可能你退货险的价格是8毛钱,而你女朋友的退货险的价格是2块钱。退货险是根据每个人,买某家店,某个商品可能退货的概率而自动得出的。再根据你这次7天后退货还是没退货,自动调整下一次退货险的价格。
分享一个小小的经验。我一般买东西的退货险是1块钱左右,如果突然我想付款买一件商品,发现它的退货险是5块钱,这说明什么?这说明淘宝觉得我退这件货的概率大幅度提升了,那我就要小心了,我会再回去看看商品的评价,评估一下,我是不是真的需要这件商品,或者这件商品是不是真的符合它的说明,你知道,毕竟淘宝比我还了解我自己。
—3—找个体概率的思路,我们做事的方式如何改变?知道这些有什么用处呢?
我们的问题是,如何找到每一个个体概率的稳定值呢?
因为,我们现在是为一个一个个体服务的,我们最需要回答的是,每一个个体成功的概率是多少。无论是做试管婴儿、退换货、购买产品、还是各种面对每个个体的决策问题。
我们使用群体概率的思路,最常用的就是分组。把接近一个个体的相似条件组合起来。
比如我同事38岁,那么就把30-39岁的女性做试管婴儿的群体找到,再找这个群体的概率,显然这个概率比整体概率更接近我同事的个体概率稳定值。
如果30-39岁这样分组还很大,不满意,那就再分,35-39怎么样?要不然就和保险公司的逻辑一样,就是38岁怎么样?或者再细致,就我同事生日那一天的群体怎么样?
哪怕像北京三院做的周期再多,也经不起这样细分啊。而且,就算精确到生日,试管婴儿的成功率可能还要看体重、看基因、看体质。群体概率的思路做到极致,就会遇到问题。没有相同的两个人,包括双胞胎也至少有一点点差异,对有些事情来说,这点点差异可能就是巨大的不同。
群体概率这种细致分组的思路,做到底,数据依旧是不够的。用细分的群体概率代替个体概率,可能保证在现有条件下犯错最小,但是却永远代替不了个体概率本身。
但是大数据带来了希望。
第一,数据多了,禁得起细分了。我不是一个北京三院的数据,如果我有这个世界上所有的试管婴儿成功率的数据,我就可以分的更细致了。但这还不是最主要的。
第二,有多维度的数据相互验证了。如果我有了不是试管婴儿本身的其它数据,比如基因,比如身高体重,比如生活习惯,我们就能寻找到决定试管婴儿成功率的关键因子,在不同的关键因子上能计算出对每个个体的成功概率了。
举个信用卡诈骗的例子,曾经有一种诈骗方式,收一些人的身份证去办信用卡,前几个月稳定消费,按时还款,几个月后就会提高额度,然后诈骗团伙就提现走人。银行从交易数据中根本看不出问题。而如果有了这个身份证行为数据,比如这个身份证关联的手机所在的地理位置,