相信大家遇到过很多需要填报身高的情况,比如体检、简历,或者相亲网站。
有的人可以轻松如实填报,有的人可能就要考虑一下了:这次我该报多少呢?
听说虚报身高也有统计规律,请看:
| 答主:chenqin( 3 千人赞同了该回答)
当自然产生的数据分布在某一个位置出现一个「堆积」时,猫腻可能就隐藏其中。
有些可能不是有意造假,比如人口普查数据年龄堆积在尾数为 0 或者 5 的数字中,是因为被调查人记不清自己的年龄,报告了一个模糊的数字。
有些可能也不算造假,而是数据操纵,例如上市公司的盈利总是堆积在 0 的右侧,那可能算是一种盈余管理,将不同年份的盈余挪腾后避免连续亏损而退市。
但有些数据中出现堆积,可能就有造假的嫌疑了,最好的例子就是身高。身高是一个难以突变也无法操纵的数字,当我们对一群人的身高进行比较精密的测量时,它应该比较接近正态分布,以下数据来源于 CHNS——
但如果我们把人们自己报告的身高拿来做一个概率分布,它的分布就没有那么完美了,下图列出了 CFPS2018 数据中 25-35 岁男性的身高——当然,这个身高数据是自己汇报的。
可以看到,这里的身高在每一个整五或者整十关口都出现了明显堆积,尤其是 170 处,高达 19.25% 的男性声称自己有 170cm。
以上两组数据来源于同一个年龄段的人口,出现这样大的差异显然是不可能的,一定有许多身高并非 170 的人将自己的身高谎报为 170。
那么,到底是身高比较矮的那些倾向于高报,还是身高比较高的人倾向于低报呢?我们可以将两组数据画出累积分布图。
上图画出了两组数据的累积分布。可以看到,在 170 以上,自报身高和测量身高是基本重合的,说明身高超过 170 的人口没有虚报或者低报自己的身高。
但在 170 以下差距就呈现出来了。上图画出了三个箭头,表示仪器测量身高为 167cm 的 25-35 岁男性在人群中的分布和自报身高为 170cm 的同年龄段男性的累积分布概率是一样的,类似的现象还在 165→168 以及 162→165 的位置出现。
如果我们假设测量身高到自报身高是一个保序的映射——前者到后者不改变其排序——那么可以得出一个结论,那就是身高 169、168 和一部分身高为 167 的男性,在面对调查员时会将自己的身高报告为 170。以及 167、166 和一部分 165 的男性会报告 168 的身高;164、163 和一部分 162 的男性会报告 165 的身高。
换言之,面对调查员,170cm 以上的男性不太会虚报自己的身高,但是 170 以下的男性会虚报,且虚报不会超过 3cm。
上面的结论是被调查人面对调查员的反映,到了相亲市场上,这个虚报可能就不仅仅是可以理解,而是完全必要的了。为了比较相亲市场上的表现,我们加入世纪佳缘的用户资料数据( @杨阳 对网站做了数据抓取)——世纪佳缘需要每一个用户填写自己的身高。
当我们把世纪佳缘的 25-35 岁男性身高累积分布放进上图的时候,奇迹出现了——
世纪佳缘的身高分布和男性测量身高以及自报身高都出现了非常显著的差异,且在 170 处的「堆积」更加明显了。
我们可以理解身高 169 的男性上相亲网站的比例低于身高 170 的男性,但却无法解释身高为 170 的男性要十多倍于身高为 171 的男性,两者的数量是连续的,这个数字差距意味着 170 男性上相亲网站的比例是 171 男性的十多倍。
因此,在「连续年龄上相亲网站的概率也连续变化」这个假设下,只有大量的身高虚报,才能解释上图在 170 处出现的堆积现象。
虚报了多少呢?有两种假设。
第一,假设世纪佳缘的身高分布和 25-35 岁男性的真实身高分布相同,那么虚报身高的为下图中点 A 和点 C 的距离,这个数字可以理解为虚报上限,为 7 厘米。
第二,假设世纪佳缘的身高分布和真实身高分布不同,但在 170 处分布连续变化,且下降速度和真实人口在该点的下降速度相同,那么虚报身高为下图中点 B 和点 C 的距离。由于在该假设下 170 以下人口偏少,分布下降速度会慢于真实人口分布,因此这个数字可以理解为虚报下限,为 4 厘米。
因此,我们大概可以得出一个结论,在面对调查员时,身高 170 以下的 25-35 岁男性最多会做出 3 厘米左右的身高虚报,但在相亲市场上,则最多会做出 4 到 7 厘米的身高虚报。
写到这里,可能有女士会开启嘲讽——相亲时声称自己为 170 的男性可能只有 166 甚至 163!
显然,这个嘲讽是错的,因为这个数字只是我计算出的上限,它表示不会有男性虚报更多的身高,从 165 到 169 的男性都可能声称自己为 170。
其次,大家都能发现,上面的分析中我没有画出女性的情况,这是因为我懒。实际上女性身高的分布是这样的——
可以看到,相亲市场上女性在 160 处的「堆积」现象,比男性还要严重,有五分之一的男性声称自己是 170,同时有整整四分之一的女性声称自己是 160!但这显然是不可能的。我们用类似的方法可以推算出,女性也是半斤八两,160 以下的女性,在相亲市场上最多会将自己的身高虚报 5-7 厘米,下限比男性还要高。
综上,从上文可以看到,不管是男性还是女性,在相亲市场上都会倾向于高报自己的身高,尤其是 170 以下的男性和 160 以下的女性,幅度最高可以达到 7 厘米之多。
同时,我们并没有发现大家低报身高的证据。
还有一件有趣的事——大家可以看到,虽然在相亲市场上大家的表现差不多,但女性的橙色线和灰色线之间的距离,没有男性那么远。
这说明男性和女性在面对不认识的人和潜在的相亲对象的反应差异是不一样的。从中大概可以得出另一个不太严谨的结论——
在身高问题上,男性的撒谎是连续的,对不认识的人撒个中谎,最多虚报 3 厘米,对潜在相亲对象撒个大谎,最多虚报 4-7 厘米。
而女性的撒谎是跳跃的,对不认识的人会撒个小谎,最多虚报 2 厘米,对潜在相亲对象撒个比男性更大的谎,最多虚报 5-7 厘米。