西南财经大学中国家庭金融调查 (CHFS) 抽取 28000 户家庭的全国调研做法统计学上严谨吗？

西南财经大学的家庭金融调查项目是一个很了不起的项目，他是第一个尝试准确估计家庭金融资产的调查。在此之前，各式各样的调查虽多，但对一些个人敏感问题，则至多涉及到收入、职位、有几套房子。再深入的问题，比如，家里有多少存款？不敢问了。

笃笃笃，敲门声传来，你打开门，礼貌的房产中介站在门外：先生您好您的房子卖多少钱。

如果一项调查要问到存款这种问题，那么一般来说，他的调查员的结局都不会比这个房产中介好多少。西南财大花了很大功夫进行事先宣传，让人们知道这项调查的重要性与个人隐私的安全性，学生调查员的一次次回访，也极大降低了这项调查的拒访率，最终得到了质量很高的问卷，这都是很了不起的成就。

言归正传。我们来回答这个问题：要了解中国家庭的金融资产情况，28000户家庭到底够不够？
答案是——看情况，看方法。你想要从这份数据中了解的信息，以及抽样方法，决定了数据的可靠程度。

如果仅仅想要了解所有城市家庭的资产平均数，那么，28000份问卷已经足够了。这篇关于CHFS的新闻显示，中国城市家庭资产的中位数为40.5万元，平均数为247.60万元。如果家庭资产服从对数正态分布，那么就有 $e^{\mu }=40.5, e^{\mu+\frac{1}{2}\sigma ^2}=247.6$ ，家庭资产的标准差应当等于 $E[X]\sqrt{e^{\sigma^2}-1}=247.6\times \sqrt{\frac{247.6}{40.5}^2-1}$ ，即1493万元。
在计算平均数时，随着样本量增大，样本平均值的方差会依概率收敛到零，收敛速度为样本量的平方根。当我们取28000个样本时，样本家庭资产平均数的标准差变成 $1493/\sqrt{28000}$ =8.9万元，也就是说，只要随机性足够，那么通过28000份问卷计算平均得到的家庭资产平均数，有很大可能会（66%）落在一个长度为18万元的区间内，几乎肯定会（96%）落在一个长度为36万元的区间内。上下各18万元的误差，对资产平均值估计来说已经足够准确了。

但是，如果你要精确了解那些最富裕的1%家庭的资产分布情况，28000份问卷则远远不够。很简单，最富有的1%家庭在问卷中只有280份，与28000份的总样本相比，280份问卷会将样本平均数的标准差扩大十倍。对上一个例子的数字来说，就是上下各180万元的误差。这就有些不可接受了。另一方面，仅仅280份问卷，也不利于我们了解富人的资产分布的尾部到底有多长。

怎么办呢？通常情况下，完全随机的抽样调查会得到下一幅图：

为了做图方便，该图假设一个人口的收入服从正态分布。当完全随机抽样实行时，被调查到的样本实际上如同红线一般分布，其特点是中间密集而两段稀疏，即收入处于中间水平的人口被调查到了很多，收入最高和最低的人口没有被足够的调查到。
在这种情况下，我们估计总样本平均数——没问题；估计中段人口收入平均数——更加没问题，中段的样本如此密集；但最高/低收入的人口——问题就来了。从2到4（-4到-2），区区两根红线，跨越了如此大的收入区间，根本无法与中间段的密集红线相比，因此不能很好代表该区间人口的收入情况。

对此，最简单的一个想法是，增加调查总量。当调查总量足够大时，我们必然也能在左右两段获得足够准确估计的密集红线，问题解决了吗？
没有。调查是一项高成本的活动。每十年一次的人口普查，仅仅是每户家庭一张纸的问卷，就需要650万名调查员，80亿元经费投入。当前，对一个比较详细的调查来说，每增加一个被调查样本，成本就增加300到500元不等。哪有那么多个几百万元来保证你的尾端准确率呢？

于是，人们想出了一种折衷的方法。中间段人口本身就比较密集，且收入分布较窄，就少调查一些；两端人口，就多调查一些吧。于是上一幅图变成了这样：

中间变稀疏，两段变密集的调查方法，反而使得在收入分布上调查得更均匀了。虽然上图的红线数量比第一幅图还要少几根，但显然下图对各个收入段的情况都有比较好的把握。这种折衷的方式，能够在不增加成本的情况下，同时获得中间收入段和高低两极的收入估计。如果要用这个样本计算总体平均数，只需要加权调整，让所有人口的被抽中概率乘以权重等于一个恒定值即可。比如可以让中段样本一个抵俩，而两端人口两个抵一，方法不一而足。

西南财大的家庭金融调查就使用了这种调整。他刻意多抽取了那些最穷和最富的人口，来保证尾端分布估计的准确性。具体方法见swufe.edu.cn 的页面。其中关键的一个步骤是：

第一，按照各市县的非农人口比例的分位数，将各市县分成 5 个组。分组的依据是各市县非农人口比重 20%、40%、60%和 80%的分位数。
第二，在非农人口比例最大的市县组中，居委会和村委会分配的样本比例是 4:0。
第三，在非农人口比例次大的市县组中，居委会和村委会分配的样本比例是 3:1。
第四，以此类推，在非农人口比例最低的市县组中，居委会和村委会分配的样本比例是0:4

也就是说，在城镇人口占比最高的地方（通常是沿海大城市），抽取尽量多的城镇人口；而在农村人口占比最高的地方（通常是内陆小城镇），抽取尽量多的农业人口。换句话说，在高收入地区尽量调查高收入人口，而在低收入地区尽量调查低收入人口，以此增加两端人口的被抽中概率，来接近上文第二幅图的情况。最后再通过加权来得到总样本平均值。

这种看似十分奇怪的抽样方式，其实正是同时权衡了成本与准确性后做出的选择。

最后，西南财大采用的这种抽样方法也有自己的问题。最大的问题在于一部分人口的代表缺失。根据2010年统计用区划代码和城乡划分代码，我们可以算出不同地区的村委会和居委会的分布情况。真实的分布与家庭金融调查的抽样选择相比，可用下图表示：

在城镇人口占比最多的地区，共有30.7%的地区实际上仍然属于村委会。但在抽样中，他们完全被舍弃了，也就是说，被抽中的概率为零。任何加权方式，都不能把被抽到概率为零的样本恢复出来。

如果把中国的近3000个县级单位按照2010年人口普查的非农人口比例排列，那么排名靠前的600个县级单位共有2.7亿人口，当其中占比为30.7%的村委会全部被抽样方法舍弃掉时，约8000万人将无论如何都不可能被反映到数据中。

如果被舍弃的样本可以用其他类似样本替代也就罢了，但我们实在难以否认：大城市的村委会人口其实有着非常丰富的数据特征。比如他们的征地收益可能会更高，从事非农工作的比例更高，自我雇佣的比例也可能更高等等，但我们却无法在数据中找到他们的身影，这是中国金融调查的一个莫大遗憾。

— 完 —

本文作者：chenqin

【知乎日报】
你都看到这啦，快来点我嘛 Σ(▼□▼メ)

此问题还有 5 个回答，查看全部。
延伸阅读：
如果中国爆发金融危机，普通人应该如何应对？
经济学或金融学入门哪本书最好？

我校新闻作品获2023年度浙江省高校好新闻奖和浙江教育新闻奖

学校举行北京雪迪龙教育基金捐赠仪式

学校举行教育政策与管理学科建立20周年发展座谈会

请接住——来自ZJUT的“泼天馥桂”（文末送福利）

我们

双十一，浙工大送福利啦！

中国科学院院士包刚作专题学术报告

我校举办“毛泽东与新中国政治制度的奠基”学术研讨会暨毛泽东哲学思想研究会第31次年会

权威发布 | 浙江工业大学2025年硕士研究生招生章程

【浙工大•这五年】有组织地做有用科研，跑出科技创新高质量发展加速度

【浙工大•这五年】奋力推进新时代卓越研究生教育体系建设

【浙工大•这五年】立德树人守初心，铸魂育才创一流

学校成立绍兴校友会化工分会

浙工大，71岁生日快乐！我在______，祝福你！

65年前，他的日记写了啥？

湖畔周末镜中

晒出你的范儿!|首届杭城高校自拍大赛火爆启动

湖畔周末行至

我校足球队获2024年浙江省青少年校园足球联赛大学男子甲A组冠军

有体育，才工大！ZJUT运动会来啦！

专业！下次还来！

我校承办浙江省高校“科技创新和产业创新深度融合”交流研讨会

省部属高校组织员能力提升培训示范班在浙工大举行

小和山片区高校校际干部联合培训班在我校举行

好看又实用！浙工大专属PPT模板上新！

美国内科学会推荐用针灸治抑郁？没有的事

古人“以辣代盐”，原来有神经学基础

我校新闻作品获2023年度浙江省高校好新闻奖和浙江教育新闻奖

学校举行北京雪迪龙教育基金捐赠仪式

学校举行教育政策与管理学科建立20周年发展座谈会

我校举办“金融赋能新质生产力，推进现代化产业体系建设”主题论坛

我校举办“时空信息赋能数字生态文明建设”学术研讨会

我校10个基层党组织和5名个人入选第四批全省高校党建项目培育创建名单

我校举办“人工智能与高校教学科研智能化建设”学术活动

学校举行2024年浙江省物理学术与教学研讨会暨浙江省物理学会年会

西南财经大学中国家庭金融调查 (CHFS) 抽取 28000 户家庭的全国调研做法统计学上严谨吗？

西南财经大学中国家庭金融调查 (CHFS) 抽取 28000 户家庭的全国调研做法统计学上严谨吗？

分享到

下一篇 [what if]第96期：天价赔偿

上一篇 「东北大板」怎么红起来的？

相关阅读

上一篇「东北大板」怎么红起来的？