01 平均值:不要被骗了,它不能代表整体水平
数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
我们在日常生活中经常会遇到这种情况,看到某些统计报告里面说,“某市的人均住房面积是120平米”“计算机行业人均年收入超过50万元”。你看完这个数据之后,倒吸一口凉气,然后去微博感叹:“对不起,我又给大家拖后腿了”“对不起,我又被幸福了”。
你不必为此焦虑,我只能奉劝你,以后看到这么不专业的统计报告就别看了。来,我带你看看准确客观的平均值统计应该是怎样的。首先,你得知道平均值究竟是什么。
从概念上看,平均值有很多种。单从数学上来说,就有算术平均值、几何平均值、平方平均值、调和平均值、加权平均值等等。所以当有人和你说平均值的时候,你要留个心眼问问他,你这说的是哪个平均值呀?
当然,我们日常生活中提到的平均值都默认是“算术平均值”,也就是“一组数据中所有数据之和再除以数据的个数”。这个概念不难理解,你在小学的时候就开始学了。不过看到这里,你可以先结合我们上面的例子想想,算术平均值有什么短板吗?
我先给一道极其简单的数学题,你可以先想想。我们有3个数,他们分别是0,1,20,这三个数的平均值不难算,是(0+1+20)/3=7,那7这个平均值和之前的三个数是不是差距挺大呢?是不是有些不客观呢?
所以,有的时候,平均值并不能代表整体水平。
平均值在什么情况下才有价值?
那平均值到底在什么情况下才有价值呢?回答这个问题之前,我再给你讲个故事。
昨天下楼的时候,我听到小区两个大妈在讨论,“这次期末考试,班里语文的平均分是71分,我孙子考了85分,厉不厉害!”在工作中,我偶尔也会听到同事说,“我们客户的平均客单价是1000元钱,竞争对手的只有500元,我们的客户比对方的高端多了。”这些说法都对吗?还真不一定。
为了更好地解释这个问题,我先拿孩子的平均分给你举个例子。假设班级里20名学生的考试成绩如下图一样呈现两极分化的情况,一半孩子都在95分以上,还有近一半的孩子只有三四十分,我们很容易计算出这20名学生的成绩平均值是71.05(图中的红色直线)。
看上去孩子的85分比平均分71.05分高了很多,但你再仔细看,这个分数在好学生里其实是最差的那个,整体上看也只是班级中游水平。
同理,看上去这个企业的平均客单价很高——平均1000元,但如果你的数据是由1个1万元客户和10个100元的客户构成的(总收入11000元/11人=1000元/人),对方都是11个客单价500元的客户构成的,那么其实竞争对手才是真正的高客单价企业。
你可能会觉得我在抬杠,这些例子的数据集都太极端了吧?其实我是想说明一个问题:平均值是用所有样本数据计算的,容易受到极端值的影响。在不少情况下,平均值是没有价值的,它无法客观准确地反映数据整体情况。
更进一步来说,整体平均值是在数据呈均匀分布或者正态分布的情况下才会有意义,如果忽略整个数据的分布情况,只提平均值,其实是没有意义的。这也就是为什么你会在读一些统计分析报告时觉得自己不是“被加薪了”,就是“被幸福了”。
现在你明白了吗?在一些复杂情况下,我们是很难确定人群分布情况的,此时若直接使用平均数值,是很难反映整体真实情况的。
分组结论和整体平均值不是一回事
那怎么才能反映真实情况呢?
就拿平均薪水这个例子来说,你肯定有疑问:什么人啊?咋拿到那么多钱的?你肯定想看更详细的数据,诸如具体的岗位属性、工作年限、城市等等。有了这些信息,你才能知道你和人家的薪水差距到底差在哪了。
比如一个在一线城市工作3年的Java程序员的月平均工资是2万元,而我的月工资是1万元,那我确实是低一些,这个判断比起之前那个一刀切就准确太多了。
不知道你有没有注意到,在思考这个问题的过程中,你已经在不知不觉中引入了分组的逻辑。你应该也发现了,分组中的平均数和从整体中得到的平均数,是完全不一样的,分组中得到的平均数更具参考价值。
上面这个例子很好理解,我现在要顺着它抛出一个结论:整体平均值不能代表各分组情况,分组结论和整体平均值结论可能会大相径庭。
明白了吗?别急,我再讲一个例子反面论证一下这句话。话说NBA有两个球员,球员A和球员B,他们的投球的表现如下面这个图所示。
这里我简单描述下,先说2分球的情况:A球员,2分球总共投了250个,投中了200个,命中率80%;B球员,投了100个,投中了90个,命中率90%。也就是说,以2分球的命中率来看,B更牛一些。
投3分球的时候,A球员一共投了50个,投中5个,命中率10%;B球员,一共投了150个,投中50个,命中率33.33%。看来,无论2分球还是3分球,B都比A的投中率要高。看上去也是B比A厉害,对吧?
那问题就来了,可是从整体命中率来看好像不是这样啊。你看,如果我们算下两位球员的整体平均值(也就是整体投中率)。
A的总投球数是300个(250个2分球,50个3分球),共投中205个(200个2分球,5个3分球),投中率是68.33%;B呢,投了250个球,投中的两分和三分加到一起140个,那么他的投中率是56%,这么看来B比A的投中率68.33%要低呀。
看到这个结果,你是不是很诧异,不信你再仔细看看这个图表,我的确没有在数据上做手脚。
两分球和三分球投中率都比较高的这个球员B,整体的命中率反而下降了,是不是让人有点大跌眼镜?如果你是篮球爱好者,你应该会发现问题,NBA里没算过整体命中率,一般都是把二分球和三分球的命中率分开说的。
辛普森悖论的启示
为什么NBA不计算整体命中率呢?就是因为这样算不准确。这里我们可以引入一个著名的悖论——辛普森悖论,它讲的就是这个问题。辛普森悖论是1951年由E.H.辛普森提出的,简单来讲就是在分组比较中都占优势的一方,有的时候在总评中反而是失势的一方。
我用前面NBA球员命中率的例子跟你分析下产生辛普森悖论的原因。首先,两分球和三分球的投球能力根本不是一回事,这两个投球数本身就不应该相加;另外,B球员虽然厉害,但是他60%的球都是命中率比较低的三分球,而绝对数量上命中率较高的两分球投得就少了,而三分球的投中率是明显低于两分球的,这样就拉低了他的整体的投中率,造成了整体的劣势。
是不是还是有点绕?用一句话来讲,就是“质”(命中率)与“量”(投球数)是两个维度的数据,如果全部合并成“质”(命中率)这个维度的数据,那就会出错了。
再举一个例子,某游戏公司做了款游戏,有Android和iOS版本,而每个系统都有手机版本和Pad版本。一个数据分析师看完用户的付费数据后,发现整体上Android付费率比较高。他就直接告诉老板说,“你看我们Android的用户付费率要高于iOS的用户付费率,我们应该大力发展Android客户端!”这个数字是真实的,但是结论很可能是错误的。
因为我们再细分下去你会发现,这个数据分析师也是错误地把“质”(付费率)和“量”(用户数)简单合并,是一种想当然的行为。
因为还有可能出现这样一种情况:Android无论是平板还是手机的付费率分别都比iOS低,但是整体上因为安卓手机(注意,只是手机用户)的用户比较多,所以把Android付费率整体拉高了。但其实细分下去iOS、Pad和手机的付费率都比Android高,只是整体付费率低而已。你要是还有疑虑,可以对照上面NBA的例子,自己再推演一下。
所以,我再来总结下,看到一个平均值的时候,你一定要留个心眼,看看它的数据构成情况,而不是简单地用平均值去代表所有的整体。生活是具体的,如果你想看到更为准确的数据,你应该分组拆开来看。因为辛普森悖论告诉我们,有的时候,在分组比较中占优势的一方,在总评中反而可能是失势的一方。但你要注意,只是“有的时候”。
就像最近我看到一些文章,说税率改革之后我们的整体工资的税率反而是变高了,而不是变低了。这也是同一个道理,我们用整体的平均值去掩盖个体每一个不同区间段的税率变化,是不对的。我们应该更细分的数据去评定实际的好坏。
除此之外,辛普森悖论也给我们一个启示,就是:每次小范围内的输赢,其实和你在整体上的输赢没有太大直接的关系。这也是为什么在打麻将或者打德扑真正赢的那些人,不是那些小牌把把赢的人,而往往是赢一把大的人。
这也是这个辛普森悖论衍生出来的一个推论,将来你要用数据分析做决策的时候,小到打牌、大到做投资,不要过于计较局部的得失,而是要在关键时刻对大概率有把握的事情放手一搏。
小结
好了,今天这篇文章就到这里。我在最后再来给你串讲下这节课的知识点。
首先,当别人给你说平均值的时候,你要和他确认下说的是哪个平均值。当然,生活中,我们提到的平均值基本都是在说算术平均值。其次,算术平均值特别敏感,它很容易受到极端数据的影响,所以在很多选秀节目里,你经常会听到最后计算分数时要去掉一个最高分和一个最低分,这是一个道理。
你也一定要意识到,整体平均值是在数据均匀分布或者正态分布下才会有意义,如果忽略整个数据的分布情况,只提平均值是没有价值的。
最后,我和你聊了辛普森悖论。工作生活中,我们经常会遇到这样的悖论,甚至我见过很多传销人员就在用这个悖论在忽悠人,如果你遇到这样的案例,别忘了那句话:分组结论和整体平均值结论可能会大相径庭。
在我们的生活里,我们总提“质量”这个词,但是拆开来看,“质”与“量”是不等价的。所以当你不被大部分人所理解时,有可能是因为你选的路是一条少数人走的路。平均值和辛普森悖论告诉我们要抓大放小,不要因为某一个单项优势就洋洋得意,也不要因为局部失败就一蹶不振。生活,要有一颗平常心,我们的目标是让我们这一生的“人生平均值”逐步提高。
数据给你一双看透本质的双眼,让我们持续学习,持续提高。
课后思考
最后我给你留一个课后思考题:你在你的生活里,你还遇到过哪些平均值和辛普森悖论的例子吗?欢迎你分享出来,我们一块讨论。
欢迎在留言区与我分享你的想法,也欢迎你在留言区记录你的思考过程,如果你能有其他案例,那就更好了。感谢阅读,如果你觉得这篇文章对你有帮助的话,也欢迎把它分享给更多的朋友。
- Troy@InfoQ_0a1dfd515153 👍(22) 💬(4)
单从投球命中率会不会也不够,假如A跟B上场时间差不多,A的总得分是415而B是330,这样看A是更有得分能力
2021-07-31 - 夜路破晓 👍(39) 💬(2)
之前只是从量的角度理解辛普森悖论,比如生活当中存在一类聪明人,在整体水平较低的模块占据优势,因此获得重视,但对基础模块的提升只是浅尝辄止,那么有很可能导致个人整体水平不高或者存在上限,因而走不远。 看完这篇文章对辛普森悖论的本质有了更进一步的了解。人们在认识世界方面,由于客观条件的限制必然存在着多种视角,沟通交流就是对建立在对多种角度融合的基础上。那么,据此我们是不是可以一个结论,即由于辛普森悖论的存在,某些沟通交流必然是徒劳的。也就说正如文章中提及的只有对符合均匀分布和正态分布的整体使用均值才有意义,沟通交流只有基于共识才能有效,否则人们要么在寻求达成共识的路上,要么话不投机半句多。
2021-07-31 - 大林 Kralite 👍(30) 💬(6)
问题出在球员的出手数上,也就是命中率的分母。 1. A球员的出手数,两分球:三分球=5:1;B球员的分母上,两分球 : 三分球=2 : 3。 2. A球员的两分球命中率每提升1%,相当于三分球提升5%,相当于整体命中率的提升0.83%;但B球员的两分球命中率每提升1%,相当于三分球提升0.67%,相当于整体命中率提升0.4%。 3. 同样是两分球命中率,A的两分球命中率的“质”是要更高的,每1%都是更“值钱”的。 再看A和B的整体命中率: 1. 整体命中率,可以看做是命中率较高的部分(两分球)去弥补命中率较低的部分(三分球),最终达到一个平衡点。 2. 对A来说,他用两分球命中率去弥补三分球命中率的过程中,因为他两分球命中率的“质”更高,只需少量弥补就能达到平衡点;但对B来说,他的两分球命中率因为不那么“值钱”,吭哧吭哧弥补了三分球命中率很多,才能达到平衡点。 4. A的平衡点,最终反而高于了B的平衡点。 直接比较命中率其实暗含了一个前提:将A的1%和B的1%放到一个天平上,它们是等价的。 但问题在于,A的1%是要比B的1%更“重”的,天平并不平衡!
2021-08-30 - 万折必东 👍(25) 💬(2)
辛普森悖论推演 ①买彩票能中小奖,和买彩票能中大奖是两回事。 经常中小奖的人,因为坚信中奖多了总能碰上大奖,所以买得越多亏的越狠 ②和女朋友吵架输了不丢人,你稳住了感情这盘大局。 大男子主义每次都赢了女人,在讲三从四德的古代可以自在逍遥,男女平等的现代基本被爱判处终身孤寂 ③招聘广告上的薪资最好调低10%-20%去看,如果招聘公司放出来的是员工平均薪资,极有可能是被少数高薪员工拉高了的薪资
2021-09-07 - 80分 👍(16) 💬(2)
辛普森悖论让我重新思考整体与个体的关系。整体的平均值不一定能代表整体,还要考虑个体是否符合均匀分布或正态分布。用平均值来评价缺乏起伏的一生无可厚非,对于大起大落的人生则有失公允。 但我们还远未到盖棺定论的时候。依据辛普森悖论的提示,找到隐藏在整体平均值下的分组平均值,也就找到了自己的优势和劣势。你可以选择填补自己的短板,也可以根据比较优势理论,将资源投入到你更擅长的事情上,猛投2分球。哪种选择更好?这是另一个价值观上的取舍,但至少要先认识到自己有选择。
2021-09-12 - mtfelix 👍(13) 💬(1)
大侠的课,对活法也极有启发呀。赢一堆鸡毛蒜皮,不如一把大的。
2021-08-01 - 第一装甲集群司令克莱斯特 👍(9) 💬(1)
先胖不算胖,后胖压倒炕。 打麻将开局顺风顺水,一堆屁胡。 然后人家几把大胡,是最后赢家!
2021-07-30 - 一 👍(8) 💬(1)
老师,请教两个问题, 1.辛普森悖论是否可以理解为:整体平均值与分组平均值不一致时,分组平均值更具代表性? 2.原因是否是因为:分母不同,不能直接合并分组平均值为整体平均值,因为分母较大的分组会稀释分母较小的分组在整体中的占比。
2021-08-28 - Lemon、 👍(5) 💬(1)
就像打游戏,分三路推掉了六个塔,最后还是输了,因为对手只在中路推了4个塔就打到家门口了
2021-08-07 - 公号-技术夜未眠 👍(5) 💬(2)
赢得了每一场战役,却最终输掉了整个战争。
2021-07-30 - 一 👍(4) 💬(1)
昨天跟朋友下围棋,正好映射了今天课程要讲的道理:布局全盘,不要只着眼于一子的得失。人生又何尝不是这样,确定好大目标大方向,不要在乎一城一池的得失、鸡毛蒜皮的小事。前提是要确定好大目标大方向,并按照这个方向去努力
2021-08-28 - 毛小孩 👍(4) 💬(1)
看了全文,啥都忘记了,只记得这句话:生活,要有一颗平常心,我们的目标是让我们这一生的“人生平均值”逐步提高。
2021-08-10 - !null 👍(2) 💬(3)
篮球的那个是不是计算方法有问题?比如将A球员3分球的命中率是10%,所以让他投150个球(扩大到和B一样的头球数)命中15个。B球员2分球命中率是90%,那250个球投中225。这样再计算整体命中率P(A) = (200+15)/400 = 215/400 P(B)=(225+50)/400 = 275/400 这样就能够得到B球员命中率高的结论了。所以,在分组比较中都占优势的一方,在总评中也是占优势的一方。
2021-08-16 - 有恒 👍(1) 💬(1)
以前玩连连看,计算总体的胜率,没有采用分组,所以胜率并没有太大的意义,可能是从低手那里刷来的成绩。
2021-08-13 - 李沛文steven 👍(1) 💬(1)
一叶障目,不见泰山。我觉得更好的描述了这个辛普森定律。整体战略框架和执行工作的细致末节都要照顾的到,才能产生足够效益。只有整体趋势争取的前提下,细节才决定成败。不然就是再优秀的细节,不产生效益也是无用功。 同时,对事物看法和想法也要多维度多角度分析,不要整体一棒子打死。细化,数据化 多维度 整理思路服务于我,也是我学习这个课程主要原因
2021-08-12