[工作论文No.5]万海远:不同收入人群样本偏差与基尼系数估算
万海远
发表时间:2013-7-8 21:11:33    最近修改时间:2013-7-8 23:12:02
摘要: 为了直观地揭示《中国家庭金融调查报告》样本比例偏差给基尼系数估算所带来的影响程度,我们做了三方面的模拟分析,一是在中国家庭金融调查数据(CHFS)数据的基础上,保持中等收入群体的样本不变,而对高、低收入样本进行随机的抽取缩减,并比较了基尼系数的变化;二是在CHFS数据上,我们进一步把中等收入样本等比例扩大,从而检验基尼系数的变化。三是,为了作一个对比,我们还利用中国住户收入调查(CHIP)数据进行了同样的中等收入样本随机抽取试验。三方面的模拟结果都发现,《中国家庭金融调查报告》存在严重的样本偏差问题,高收入样本比重过高而中等收入样本比例过低的问题足以对基尼系数的估计产生系统性影响,从而构成收入差距被严重高估的一个根本性来源。
关键词:样本偏差;数据结构;基尼系数

不同收入人群样本偏差与基尼系数估算

简评西南财大调查样本偏差造成的基尼系数高估问题

万海远

(国家发展与改革委员会社会研究所) 

一、引言

 根据岳希明,李实(2013)和李实,万海远(2013)的分析,在中国家庭金融调查数据(CHFS)中,由于他们抽样方案和问卷设计的问题,从而导致样本比例的变形,最终获得的抽样数据与总体的数据结构存在很大不同。尤其是,根据中国家庭金融调查数据的抽样方案,在第二阶段,他们按非农人口比例的高低排列并舍弃某些对象后再抽取居委会(村委会),而这会导致严重的样本偏差,因为中等收入组的样本比例会偏低,而高低两端的样本则明显偏高。而在抽样方案的第三阶段,他们在城乡样本分配的阶段“喜富嫌贫”,从而导致样本结构偏向于高收入的城市样本;之后,在城市样本内部的分布也是严重的不均衡,最高收入组被人为地分配了过多的样本。综合来看,这些抽样问题都导致了样本结构的严重倾斜,形成了一个过高比例的高收入群体。最终,基尼系数被严重高估。

 

二、数据定义与模拟方法

 为了更加直观地揭示这种样本比例偏差给基尼系数估算所带来的影响程度,我们做了三方面的模拟分析,一是在中国家庭金融调查数据(CHFS)数据的基础上,在对高、中、低数据划分后,我们保持中等收入群体的样本不变,而对高、低收入样本进行随机的抽取缩减,并最后计算基尼系数水平;二是,考虑到缩减高低收入组样本可能会造成一部分畸高、畸低样本的丢失,所以我们也在CHFS数据高、中、低样本定义的基础上,把中等收入组样本比例进一步等比例扩大,从而检验基尼系数的变化。三是,为了作一个对比,我们利用另一套中国住户收入调查(CHIP)数据进行模拟。在高、中、低样本的定义基础上,我们保持高、低收入样本不变,而对中等收入样本进行随机的抽取缩减,之后再计算基尼系数水平。

需要说明的是,其中在关于高、中、低样本的划分上,我们通过三种方式来定义:1)在收入进行排序的基础上,高、中、低收入样本分别为总样本中最高的5%、中间的90%和最低的5%;2)同样,我们也定义最高和最低的10%分别为高收入和低收入样本,剩余的80%则为中等收入样本;3)最后,我们还提供了另一种收入人群定义,也即高、低收入样本为总样本的最高和最低的25%,中间的50%样本则为中等收入群体。

另外,在对样本进行随机抽取缩减时,我们也提供三种缩减标准,即分别随机剔除样本中10%,50%和90%的样本,从而来保证模拟结果的稳健性。

 

三、模拟结果

 首先,我们利用中国家庭金融调查数据(CHFS)来进行验证,其目的仅在于说明样本结构的变化给收入差距带来的影响程度有多大,高、低样本缩减后的基尼系数结果见表1。

  中国收入分配研究院

 

在表1中,在定义1的规则下,如果高低样本都缩减10%,那么基尼系数会减少为0.58168;而如果缩减90%,则基尼系数会减少为0.51488。也就是说,随着高低样本比例的缩减,基尼系数在下降,而且缩减比例越高,基尼系数下降的程度就越大。同样,从定义3来看,如果高低样本都缩减10%,那么基尼系数会减少为0.57973;而如果在定义3中缩减高低收入样本90%,那么基尼系数则会大幅度下降为0.38750。

综合上表1,我们可以发现,在同一数据中,如果缩减高低样本比例,基尼系数水平会大幅度下降;而且,在不同的样本结构中,高低收入比例样本比重越高,缩减所带来基尼系数下降的幅度就会越大。这样,在CHFS数据中,基尼系数的估算对样本结构的变化就非常敏感,高低样本比重的变化会在很大程度上影响基尼系数的计算。在上下10%为高低收入样本的情况下,如果高低样本都缩减90%,其基尼系数会下降到0.47左右,这跟我们利用CHIP数据实际测算的全国基尼系数水平是接近的(李实,罗楚亮,2011)。

其次,在第二种模拟中,我们利用CHFS数据,保持高、低收入样本不变而进一步把中等收入样本等比例扩大,结果如表2所示。

 中国收入分配研究院

如上表2所示,在每一种定义中,较高的中等收入扩大比例,会导致较低的基尼系数水平。一旦中等收入样本比例提高,则基尼系数水平会显著下降。而且,在扩大同一比例的中等收入模拟过程中,对于不同的中等收入定义,基尼系数下降的幅度会随着中等收入样本存量的提高而提高,这表明稳定的中等收入群体是拉平收入差距的重要因素。所以说,如果中等收入样本过少,而高收入样本比例过大,那么收入差距水平则会显著提高。

再次,为了对样本结构变化对基尼系数影响这一问题有一个更有力的比较,我们再次利用中国家庭收入调查数据CHIP,从中等收入样本缩减的角度,重新对样本结构变化与基尼系数估算的问题进行了模拟,具体如下表3所示。

 中国收入分配研究院

根据上表3,我们可以发现,在上下5%为高低收入样本、中间90%样本为中等收入样本的定义下,如果对中等收入样本缩减10%,那么基尼系数会拉大为0.48062;而如果缩减90%,那么基尼系数则会扩大为0.60092,这几乎与甘犁(2012)给出的基尼系数相同。同样,在中间50%样本被定义为中等收入群体时,如果对中等收入样本缩减10%,那么基尼系数会提高为0.48048;而缩减90%时,基尼系数则会迅速扩大为0.52956。

综合表3,我们也可以得到类似的结论,那就是:减少中等收入样本、扩大高低收入样本会导致基尼系数的快速提高。而且,样本结构越是分散,高低收入样本比例越高、中等收入样本比例越小所带来基尼系数高估的倾向就会越明显。

 

四、简要结论

总的来看,《中国家庭金融调查报告》存在着严重的抽样方法和问卷设计的问题,这导致了数据结构的变形和收入水平的偏误,从而导致了收入差距的严重高估(李实,万海远,2013)。根据中国家庭金融调查数据进行的模拟数据表明,样本结构的变化会给收入差距估算带来显著影响,从CHFS的模拟结果来看,如果高低收入样本等比例缩减,那么基尼系数会显著下降;如果,中等收入样本等比例扩大,基尼系数也会显著降低。同样,如果根据CHIP数据,从缩小中等收入样本从而扩大高低收入样本的角度来看,基尼系数的估算对样本结构的变化也非常敏感。在上下5%为高低样本、中间90%样本为中等收入样本的定义下,如果对中等收入样本缩减90%,那么基尼系数则会迅速扩大为0.60092,几乎与甘犁(2012)给出的基尼系数相同。由此说明,样本结构畸形、高收入样本比重过高而中等收入样本过低的问题,会足以对基尼系数的估计产生系统性影响,从而构成“中国家庭金融调查报告”收入差距被严重高估的一个根本性来源。

 

参考文献:

甘犁等,中国家庭金融调查报告.2012,西南财经大学出版社,2012年6月。

岳希明,李实,对西南财大基尼系数的再质疑,中国收入分配研究院工作论文,2013年1月。

李实,罗楚亮,中国收入差距究竟有多大?——对修正样本结构偏差的尝试,《经济研究》,2011年第4期。

李实,万海远,提高我国基尼系数估算的可信度——与《中国家庭金融调查报告》作者商榷,《经济学动态》,2013年第2期。

万海远,对《中国家庭金融调查报告》的再质疑:数据准确性问题,中国收入分配研究院工作论文,2013年4月。

(责任编辑:詹鹏)

分享到: