岳希明:西南财经大学0.61基尼系数不可信!
岳希明
发表时间:2012-12-28 13:41:28    最近修改时间:2013-1-18 21:16:14
摘要: 西南财经大学中国家庭金融调查与研究中心最新公布了《中国家庭收入不平等报告》(以下简称“报告”,“报告”所依据的住户调查以下简称“调查”),报告显示,2010年中国家庭收入基尼系数为0.61,城镇家庭内容基尼系数为0.56,农村家庭内部基尼系数为0.60。这些估计值是迄今为止根据住户调查数据得到的中国居民收入基尼系数的最高估计值,因此得到社会各界的普遍关注。
关键词:基尼系数,家庭收入

 

一、调查结果的诸多疑点

      西南财经大学中国家庭金融调查与研究中心最新公布了《中国家庭收入不平等报告》(以下简称“报告”,“报告”所依据的住户调查以下简称“调查”),报告显示,2010年中国家庭收入基尼系数为0.61,城镇家庭内部基尼系数为0.56,农村家庭内部基尼系数为0.60。这些估计值是迄今为止根据住户调查数据得到的中国居民收入基尼系数的最高估计值,因此得到社会各界的普遍关注。

      但是,非常遗憾的是,“报告”中的收入水平和收入差距有诸多可疑之处,对此列举如下:

      第一,“报告”给出的全国0.61的基尼系数本身具有很大的任意性。在计算基尼系数时,“报告”“将收入小于0的家庭去掉,同时去除最高和最低收入的1%的家庭。”如果不去掉极端样本,基尼系数将比0.61更大。但是,对于为何必须去掉这些样本,为何必须是收入最高和最低1%的样本,而不是5%的样本,“报告”没有给出令人信服的解释。这让“报告”中0.61估计值带有很大随意性。如果“报告”相信其调查数据是可信的话,显然没有必要去掉收入为负数,以及低收入和高收入样本。

      第二,“报告”低估了低收入人口的收入。中国家庭金融调查与研究中心在一份英文资料中给出了城镇有25%的居民家庭年收入在6420元以下,农村有25%的居民家庭年收入在4294元以下的计算结果。一位网友指出(长溪岭,2012),这一结果意味着,“在2010年,中国城镇居民家庭四户中有一户的人均月收入在200元以下,即每天约为6元以下,农村中四户中有一户的人均月收入在100元以下,即每天3元钱以下。这意味着中国有四分之一家庭濒于或正处于饥饿状态中。”这种低收入显然是不现实的。

      第三,“报告”给出的基尼系数明显高估中国居民收入差距。这一点从比较“报告”的农村基尼系数和国家统计局的相应估计可知。国家统计局公布的2011年农村人均纯收入基尼系数为0.3897。以家庭为单位(而不是人均值)计算的话,农村人均纯收入的基尼系数会更低一些,因为低收入家庭的人口数较多。这一估计值远远低于“报告”中的0.60的农村基尼系数。

      在国家统计局的住户调查中,由于高收入样本的不足和缺失,城镇样本有一定的偏差,由此得到居民收入不平等程度估计值会低估。但是这一问题在农村样本中基本不存在,无论从样本的代表性,还是从收入的定义和收集上,农村样本均不存在系统性偏差,因此从农村样本得到的估计值基本是可信的。

      第四,从西南财经大学中国家庭金融调查与研究中心公布的英文PPT可知,家庭可支配收入的平均值和中位数,城镇分别是70 876元和28 800元,农村分别是22 278元和10 580元,均值与中位数的比例,城镇为2.46,农村为2.11。在收入分布上,大部分住户通常聚集在均值以下,因此中位数要小于均值。均值和中位数之间的差距在某种程度上反映住户收入的分散程度。由于缺少2010年国家统计局相应数据,我们用2007年国家统计局农村样本计算农村家庭纯收入(以家庭为单位)均值、中位数以及前者对后者的比率,结果分别是18 422元、15 000元和1.23。考虑到2007-2010年农村人均纯收入基尼系数虽然由0.3742上升至到0.3783,但并不是非常显著,因此可以说,“报告”中2.11的农村可支配收入均值和中位数之比高估了农村住户的收入差距。

二、“调查”的样本问题

      “报告”对收入水平及其分散估计值之所以出现系统性偏差,主要原因在于样本的偏差。仔细观察《CHFS抽样调查设计说明》不难发现,“调查”的抽样过程明显存在向高收入群体倾斜的偏差,以及高估收入差距的偏差。“调查”采取了三阶段PPS抽样方法,抽样的第一阶段是从全国2585个市县中抽取80个样本市县;第二阶段从样本市县中抽取320个居/村委会;第三阶段从样本居/村委会抽取住户。第一阶段的80个市县来自25个省,诸如西藏、新疆、内蒙古等低收入省份不在25个省之列。80个市县中来自东中西三个地区的个数分别是32、27,21,占比分别为40%、33.75%、26.25%,而全国2585个市县的东中西分布分别是34.3%、27.2%、38.4%。显然,东部县市样本明显偏多,西部样本比重显著偏低。第二阶段抽样中,“调查”在把80个样本市县按非农人口比重标准五等分组的基础之上,从非农人口比重最低组到最高组,村委会与居委会抽取的个数比率依次为4:0、3:2、2:3、1:3、0:4。村委会和居民会的抽取直接关系到住户样本的城乡比,在下述的第三阶段抽样中,从村委会抽取的住户为农村住户样本,从居委会抽取的住户为城镇样本。这种村/居委会样本的抽取办法最终导致从非农人口比重最低组(16个市县)仅仅抽取农村住户,相反在非农人口最高比重最高组(同样为16个市县)只抽取城镇住户。如此的抽样方法忽视了最低组中的城镇住户和最高组中的农村住户,而这两部分住户的收入大致处于中等程度,对这部分住户抽样不足,以及相应扩大落后地区(非农人口比重较低市县)和发达地区(非农人口比重较高市县)的比重不可避免地高估收入差距。网友长溪岭在其评论中也指出了这一点(长溪岭,2012)。

      第三阶段抽样是从村/居委会样本中抽取住户样本。“调查”在住户样本上有意识地多抽取了城镇样本,相应地减少了农村住户样本数。具体地说,每个村委会均抽取20户农户。对于居委会,在把村委会按平均住房价格分成四组后,从属于房价最高一组居委会中(每个居委会)抽取50户,次高组抽取45户,最后的两组依次是40户和35户。如此偏重于城镇住户尤其是高房价住户的住户抽取办法,不可避免地高估家庭财产的持有量,由于财产持有量与收入水平有着密切的关系,同时也高估了高收入人群的权重,从而高估了居民收入差距。

      偏重城镇样本和富裕样本的上述抽样办法并不是无意的,而是有意的,是“调查”抽样的目的所在,“CHFS抽样设计说明”明确表述抽样要满足“经济富裕地区的样本比重相对较大”,“城镇地区的样本比重相对较大”的要求,多抽取城镇样本、以及多抽取富裕户之类的表述多次出现在“CHFS抽样设计说明”,而这种抽样办法被认为是由“研究家庭资产配置、消费储蓄等行为的目的”决定的。研究目的的确立以及据此选择相应的抽样方法都是非常正常的。但是必须意识到的是抽取的样本是否有偏差,是否具有全国代表性,以及从此得到的收入水平及其差距、家庭资产保有量等估计值是否可以推断全国,这一点是至关重要的,对于像基尼系数非常敏感的指标尤其如此。从上述讨论可知,“调查”的抽样以及从此得到收入水平及其差距、家庭资产保有量等估计值完全没有全国代表性,“报告”中0.61的基尼系数不是中国居民收入不平等水平的可信估计值,而诸如“中国居民家庭财产总量超过美国21%”之类的判断也是“根本不靠谱”的(长溪岭,2012)。遗憾的是,“报告”完全没有意识到这一点。

三、“调查”的问卷问题

      在收入指标上,“调查”问卷存在明显的缺陷。

      收入指标是所有涉及收入的住户调查中最重要的指标之一,也是最为复杂的调查项目之一。如何定义收入、问卷的设计是否能够抓到所有要调查的收入等等,不仅关系到收入水平,同时也影响对收入差距的估计。观察“调查”的问卷,可以发现以下问题:

      其一,问卷的第三部分(“三、家庭成员的工作和收入信息”)调查家庭成员的工资等相关收入(或者说能够界定为每个家庭成员的收入)。在调查表开始之前给出这样的提示,“注意:除受访者和配偶,其他家庭成员只询问A3003及A3006”,其中的A3003是关于工作性质的问项(A3003该工作的性质是?);A3006询问的是家庭从业人员的行业属性(A3006属于什么行业?)。问卷把家庭中“最了解家里财务状况的人”定为受访人(参见[A1013]),也就是“调查”中回答调查员问题的家庭成员。根据上面的提示,“调查”并没有搜集除了受访者和配偶之外的收入,这显然低估了有三人以上从业人员家庭的收入。不仅如此,如果家庭主要劳力(如夫妻)外出打工,而家中只留下年老的父母和年幼子女的话,该家庭的收入可能几乎为零(可能有少量的农业收入),对于外出务工越老越多的农村住户来说,这一提示的影响会相当严重。

      其二,住户自产自消是收入重要组成部分,这一点对农户来讲尤其重要。农户留为自用的农产品应当按市场价格折算后计入住户收入。如果这一点被忽视,或者估计不准,会直接低估低收入人口的收入,同时不可避免地高估收入差距。

      “调查”中关于住户农业经营收入的问项有:

    ◆[B1005] 去年,您家从事农业生产经营的毛收入是多少?

    ◆[B1012] 去年,您家从事农业生产经营的总成本是多少?

    ◆[B1013a] 目前,您家生产出的上述农产品价值多少?(单位:元)

 

      由于前两项与最后一项的调查对象的时间不同(“去年”对“目前”),因此农户农业生产经营收入应当等于[B1005]-[B1012],即毛收入减去总成本。如此计算的农业生产经营收入能否既包括农村生产并外卖的粮食,又包括留存自用的部分,在很大程度取决于农户对农业生产经营毛收入的理解。通常情况下,农户仅仅把外卖粮食取得的现金收入看做收入,而并不把留作自用的部分视为收入,这一点在住户调查中如果处理不好,会大大低估农户尤其是低收入农户的收入水平,进而高估收入差距,尤其夸大包括城镇和农村二者在内的全国不平等指数。

      为了解决收入计算中农户自产自消产品的低估和遗漏问题,住户调查通常对此给予特殊的关注和考虑。目前国家统计局的做法是,首先通过每户粮食总产量减去外售数量,估计得到农户粮食产量中留作自用的部分,然后乘以农产品价格,估计留作自用部分的价值。如此特殊的处理,才能基本保证对农户粮食产量中自产自消部分的价值准确估计。“调查”仅仅通过询问毛收入和总成本来估计农户的生产经营收入,能否得到基本可信的自产自消粮食价值是值得怀疑的。

      其三,“调查”对住户工商业收入的调查仍然有显著的不确定之处。住户的生产经营收入应当等于销售总收入减去为生产经营的中间投入。“调查”问卷中与有收入有关的问项有:

      ◆[B2014] 去年,这个项目的营业收入/毛收入是多少元?;

      ◆[B2014a] 去年,这个项目的盈利状况是什么?1. 盈利 2. 亏损 3.持平;

      ◆[B2015] 去年,这个项目【加载B2014a】多少钱?

      如何根据这三问项计算住户的生产经营收入不清楚。

四、结论

      综上所述,西南财大中国家庭金融调查与研究中心的住户调查,其样本存在明显的偏差。样本不仅偏重于城镇地区富裕住户,同时在城市和农村住户样本抽样中,丢掉了落后地区的城镇样本和发达地区的农村样本,而这部分样本多为中等收入家庭。这部分样本的缺失降低了中等收入户的样本,相应地提高了低收入户和高收入户(尤其是后者)的比重,这是导致收入差距过大,基尼系数估计值过高的主要原因之一。

      “调查”问卷中关于收集住户收入的项目十分简略、粗糙,不足以较为准确地估计不同类型的住户收入,其中在把农户自产自消农产品的折价计算收入上表现的尤为突出。

      样本上的偏差和收入指标计算的问题,已经全面地反映在“报告”中相关估计值上了,0.61的全国基尼系数的估计值、中国居民家庭财产总量超过美国21%的判断,都是样本偏差和收入指标计算问题的产物。

 

参考文献:

长溪岭,2012,《不是基尼系数不能说明中国,而是0.61根本不靠谱》,长溪岭09876的博客。http://blog.people.com.cn/article/3/1355731168068.html

 

 

 

(作者单位:中国人民大学财政金融学院

(本文为作者原创,所有权归作者所有,如转载须说明出处!责任编辑:詹鹏)

分享到: