可以说,CHFS的抽样从抽样设计到执行还是比较科学的。
统计上最好的抽样方法就是简单随机抽样。但是大家也知道,简单随机抽样在现实情况中操作性很差。所以一般都会采用分层抽样的办法。
题主谈到了异质性,从统计理论上来说,只要我们能保证总体中每个个体被抽中的概率是一样的就可以了。当然如果被抽中的概率不一样,但是我们又知道其被抽中的概率,统计处理的时候也可以通过概率加权的办法解决。
CHFS的抽样设计据我所知是先从行政区划上抽样,之后再对小区、街道抽样,最后具体到哪一个住户。
可以说,这个抽样设计问题不大。
差的抽样一定是有系统性偏差的。比如系统性偏向城市/农村,偏向高收入人群/低收入人群,偏向东部/西部等等。
你如果要说样本量,其实除了普查数据,世界各地的统计调查样本量有几万已经很不错了。包括美国最有名的PSID数据也只有5000个家庭的不到两万个个人:Panel Study of Income Dynamics。
本人有幸跟随CHFS的一只调查队伍走访了上海的部分街道。那次去其实是预调查,也就是说他们已经抽样抽好了街道等位置,他们的任务是走访小区等,把小区的情况摸清楚,画出具体的住户的地图,再从地图中抽出具体去调查的住户。可以说从这个设计上来说避免了具体到住户的偏差。
跟他们聊天,真正调查的时候也很辛苦,经常被人拒绝。他们的策略也是多次去采访打动被访户吧,不到最后不会换被抽中的住户的。所以从实际操作层面来讲,我也很信任这个调查。
在国内微观数据如此之稀缺的情况下,西南财经大学能花这么大力气做一份这么认真的调查,我个人呢还是很感激的。
至于数据质量,在我接触过调查过程之后,我还是很放心的。至于你新不信,我反正信了。
==================
再仔细一看,题主非常想知道样本量的大小是不是很关键的。我的看法是,甘犁的说法是对的。
为什么?刚刚说了,统计调查最害怕系统性的抽样偏差,但是如果你能保证随机性,剩下的问题不大。
为什么?一般来说,样本量影响的是估计量的方差,也就是说,如果我们的抽样是随机的,那么你得到的估计量就不会有系统性的bias。样本量只会影响到假设检验。
但是我们知道样本量,所以我们在给出一个估计的时候,我们也会确认其置信区间,有了这个置信区间,我们至少知道这个统计量有多可靠。
想起了一个故事,在这里给大家分享一下。
说有一个公司,手头上有海量的数据,要命的是数据量每天都在大量增加。公司每周会从数据库中抽取1%的样本做描述行统计交给客户。一开始的时候任务还可以轻松完成,但是到了后来,随着数据量的井喷,1%的抽样及计算也要花费大量的时间。公司请了一个统计学家,看看统计学家有没有什么好办法。统计学家只写出了大数定理和中心极限定理的式子,问这里面的N代表什么?答曰我们使用的数据量。统计学家进一步说,这个式子里面只跟我们使用了多少数据有关,跟我们拥有多少数据无关。所以不要每天抽1%的样本,可以每天随机抽比如10万条数据就够了。
恩,这就是题主所关心的样本量的问题。
— 完 —
本文作者:Jichun Si
【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)
此问题还有 9 个回答,查看全部。
延伸阅读:
如果中国爆发金融危机,普通人应该如何应对?
在统计 GDP 时, 有将 CPI 考虑入内吗?如某年 CPI 为 10%,GDP 为 9%,该年的经济是增长还是萎缩?