岳希明、李实:如何看待不同的基尼系数
岳希明,李实
发表时间:2013-2-7 20:30:15    最近修改时间:2013-2-7 21:21:46
摘要: 针对最近火热的两个基尼系数,本文再次对国家统计局的结果和西南财经大学的估计结果进行评论,并呼吁大家理性看待不同基尼系数的估计结果。同时,对于社会上一些人“宁可不相信政府,宁可相信带有娱乐性质的数据”这一问题。作为官方统计部门更应该看到这一点,应加快统计制度的改革,保证统计数据的真实性,准确性,以取信于民。
关键词:基尼系数

    【财新网】(特约作者 岳希明 李实)在过去不到一个月的时间里出来了两个基尼系数,一个是2012年12月西南财大中国家庭金融调查中心公布的2010年的基尼系数0.61,一个是国家统计局2013年1月18日公布2003年到2012年十年的基尼系数,其中2010年为0.481。

   前者是民间研究机构的估计结果,后者是官方权威统计部门的估计结果。两个基尼系数有很大的差别,自然引起了学界和媒体的争论。

  也许由于西南财大的基尼系数公布在先(“先入为主”的缘故),国家统计局公布的基尼系数受到了一定的质疑。面对这种情况,我们应该理性地看待两个不同的基尼系数。对此,我们有必要对两个不同的基尼系数进行比较,评价各自的优势与不足。

  国家统计局的基尼系数会低估吗?

  由于基尼系数估计是一项复杂的工作,任何一项估计结果都会存在不同程度的误差,不要相信有百分之百准确的基尼系数。从估计的误差上看,我们认为国家统计局基尼系数的误差会更小一些,因而也是基本可信的。我们的理由有以下几点。

  基尼系数估计得是否较为准确,主要取决于调查样本是否具有代表性和收入指标的统计是否全面和准确。为了保证样本的较高代表性,除了需要科学的抽 样方法之外,还要保持足够大的样本量。在样本量上,国家统计局使用的住户样本高达14万户,既具有全国的代表性,也具有城镇地区和农村地区的代表性。而且 国家统计局的样本覆盖了中国大陆的所有省份和超过1/3的市县。从收入变量的收集过程来看,国家统计局通过日记账方式收集样本户收入和支出信息,因而这些 信息的统计误差不大。更重要的是,统计局住户调查详细地收集了农户各种粮食作物产量等信息,因此对农户自产自用农产品收入的估计十分准确,这一点是以往其 他住户收支调查难以做到的。当然这种调查方式的调查成本过高,这是民间调查不能承受的。但是我们不能因为其成本高,就去否定其调查数据的质量和准确性。

  当然,统计局的住户调查也不是没有任何问题,其主要的问题是高收入住户样本的代表性不足。具体地说,由于高收入住户考虑到参与调查的时间花费太 多,往往不会配合调查,造成了住户样本中高收入户的比重偏低。这种情况在城镇地区尤为突出。不仅如此,由于城镇住户收入来源的多样化和某些收入的隐蔽性, 城镇住户样本的收入可能被低估,而且越是高收入户,低估的程度可能越高。

  这两个问题,导致城镇内部收入差距的低估、城乡之间收入差距的低估和全国收入差距的低估。这确实不是中国独有的问题,是世界各国都面临的一个问 题。为了解决这个问题,也出现了大量的研究文献和相应对策。当然这个问题更加困扰着国内的统计人员和研究人员,因为中国的问题比其他国家更为复杂和严重。 为了纠正城镇高收入样本的偏差问题,国家统计局在估计基尼系数时使用了国家税务总局年所得12万以上个人所得税纳税人自行纳税申报信息。当然,这个做法到 底在多大程度上可以修正高收入样本偏差问题,是值得研究的。而且这部分申报收入的高收入人群的收入基本上是合法的,它在多大程度上能够反映高收入人群收入 水平还有待于考证。

  高收入人群的收入调查为什么会这么难?我们知道高收入群体的收入分为两类,一类为合法收入,一类为非法收入,包括灰色的,黑色的,黄色,白色的 等等。对于第一类收入来说,虽然也存在低报的问题,但是通过其他的信息(如其财产和经营方面的信息)还可以对其做出一个大体的估计。而对于第二类收入,统 计部门和调查机构往往是无能为力,也许要借助于司法部门才能搞清楚。实际上,即使是中纪委和司法部门也难以搞清楚,因为他们所能掌握的也只是那些被查办的 腐败分子,而对那些隐藏的,没有暴露的腐败分子的非法收入也搞不清楚。很多对国家统计局基尼系数质疑的声音,大多都会援引频繁暴露而又数额巨大的腐败案 件。如果说统计局的基尼系数没有反映非法收入,是有道理的。但是这里的问题是,让统计部门去收集贪官们的非法收入确实是勉为其难了。

  总之,尽管统计局住户调查数据仍然存在一定的缺陷,也可能带来基尼系数的低估。但是,与其他住户调查数据相比,无论是样本的代表性方面,还是收入指标的测量上,统计局住户调查数据质量更高,得到的基尼系数更为可信。

  西南财大基尼系数明显高估

  如前所述,2012年12月西南财大中国家庭金融调查中心根据其住户调查计算并公布中国居民基尼系数0.61。它也构成了人们质疑国家统计局基 尼系数的一个证据。这一估计值是迄今为止根据住户调查数据得到的中国居民收入基尼系数的最高估计值。这个超高的基尼系数正巧迎合了人们对我国收入差距过 大,收入分配不公和腐败现象盛行的不满情绪,受到了社会各界的普遍关注。

  然而,西南财大基尼系数是否可信呢?我们的看法是,这个基尼系数被大大高估了。该基尼系数估计所基于西南财大的住户调查数据,无论在样本抽样 上,还是在住户收入信息的收集上,都存在明显的不足。在抽样上,除了样本量过小(全国8000户),抽样误差较大之外,样本抽样过程存在明显的偏差。具体 地说,城市样本主要集中在东部,农村样本明显偏重落后地区。从《CHFS抽样调查设计说明》来看是非常清楚的。具体地说,该调查80个样本市县中,东部地 区占40%,而全国2585个市县中东部比重仅仅为34.3%。不仅如此,根据西财项目住户数据中给出的抽样权重变量计算,东、中、西部地区的样本户比重 为53%、25%和22%,而六普数据显示在东、中、西部地区的家庭户比重分别为36.5%、36.5%和27.0%。二者之间的很大差别表明了西财项目 抽样的明显偏差,这也是我们对数据质量存疑的理由之一。

  而且,农村样本明显偏重落后地区的村委会,而城市样本偏向于发达地区的居委会。同时住户调查样本的选择给予高房价居委会以更大的权重,与此同时 低估了农村住户的样本。根据西南财大的抽样方法,在第一阶段抽样上,把80个样本市县按非农人口比重五等分组的基础之上,对其中的最低组仅抽取村委会,而 没有抽取居委会。相反从最高组中仅抽取居委会,而没有抽取村委会。换句话说,这样的抽样实际上是在非农人口比重最高的16县(=80县*20%)中仅抽取 城市住户样本,相反在非农人口比重最低的16县中只抽取农村住户样本,这不仅会导致抽样偏差,更严重的是这种偏差无法通过调整权重给予纠正,原因是这两类 住户的样本不存在。

  在收入信息收集上,仔细观察调查问卷显示,该调查仅仅收集了每户受访者及其配偶的收入,而没有收集家庭其他从业人员的收入。西南财大的数据显 示,在具有货币工资的3571个城市家庭成员中,除一人之外,其他人要么是受访者本人,要么是配偶,而从第二职业取得工资收入(a3036)的44人均为 受访者或配偶。但当我们检查城市家庭有工作的家庭人员人数时,发现许多家庭超过3人。显而易见,家庭中户主和配偶以外的家庭成员的收入被遗漏了。

  而且,在收集计算农业生产经营和非农生产经营收入所需信息上,问卷也存在明显的缺陷。根据问卷收集的相关信息,很难准确地计算农户自产自用农产 品收入以及非农经营收入。正是由于样本偏差和收入指标统计上的问题,让该调查对很多家庭给出了不现实的低收入,导致了其基尼系数的高估。

  未完的争论

  在西南财大公布其估计的基尼系数后不久,一些学者对其调查数据质量提出了质疑。我们也从几个方面对其基尼系数高估的问题及其原因进行了评估。然 而,西南财大住户调查项目的负责人并没有诚意接受相关的批评,而是一味地辩解其抽样方法的合理性和虚夸其高质量的调查数据。他甚至夸口“CHFS的访员经 过了严格的访问技巧培训,具有熟练的访问技巧和认真负责的访问态度,能够将非抽样误差尽可能降低,从而保证数据质量。”

  事实是否果真如此呢?我们不妨看一下其数据的填报情况,来领略一下他们“熟练的访问技巧和认真负责的访问态度”。从其城镇调查数据中不难发现, 大部分户主的一些重要的就业信息如职业,单位所有制性质,单位类型(政府、事业单位、企业等)都没有填报。数据显示,在回答有工作的2916人城市家庭户 主中,31%缺少职业信息,31%没有行业所属信息,62%没有填报工作单位性质信息,36%没有回答关于工作单位类型的问题。其他类似的问题还有很多。 一些主要变量的填补缺失情况如此严重,又如何让人相信其数据质量的可靠性呢?更不能让人理解的是,对这些易于获得的调查内容都没有收集上来,而对于难以获 取的收入、财产等调查内容却又如何能被准确地收集上来呢?

  此外,西南财大基尼系数的估计具有一定的随意性。首先,利用西财项目公开的数据,我们无法复制0.61的基尼系数。我们老老实实按照西财项目相 关资料的解释,利用该数据分别计算了全国、城市以及农村家庭收入的基尼系数,计算结果为0.56、0.54和0.54,与西财项目公布的0.61、 0.56和0.60相差较大。其次,西财项目的估计方法,至少在两个方面需要进一步规范。一是将1%的最高收入家庭和1%最低收入家庭从样本中删除掉的做 法具有很强的任意性。它让基尼系数的估计值变得非常随意,变得更加适应估计者的意图。二是,在我国估算收入差距通常以个人为单位(将家庭收入平分到每个家 庭成员头上,每个家庭成员成为一个独立的观测值),而不是像西财项目那样以家庭为单位计算基尼系数的。为了加以对比,利用西财项目数据,我们计算了居民人 均收入的基尼系数,计算结果是,全国居民人均收入基尼系数为0.71,城镇和农村分别为0.69和0.65。值得强调的是,这些结果是在没有包括非法收入 的情况下得到的,包括非法收入之后,基尼系数会变得更高。如何解释如此高的基尼系数,我们感到无能为力! 是中国真的成了“前无古国,后无来国”的高度不平等国家?还是产生这些基尼系数的数据出了问题?也许“西财项目的负责人也不相信这样的结果,只好通过裁减 样本来降低基尼系数。如何裁减样本?把基尼系数降低到何种程度?不仅是一种随意性,也是一种艺术性。

  理性看待不同基尼系数

  我们认为国家统计局公布的基尼系数基本上是可信的,这并不是说他们的基尼系数是完全准确的。在接受这些估计结果时,我们同时认识到其局限性。

  首先,统计局的基尼系数没有反映各种各样的非法收入。很显然,不能把非法收入纳入基尼系数估计显然低估了我国居民收入差距。至于统计局能否解决这个问题,如何解决这个问题,是一个见仁见智的问题。

  其次,即使抛开非法收入不谈,基本上接受国家统计局的基尼系数并不意味着其结果是完全准确的。数据收集工作的进一步完善和估计方法的不断改善都有可能使得现在公布的基尼系数出现上下2到3个百分点的波动,这是完全正常的。

  国家统计局此次公布全国居民收入基尼系数是一次新的尝试,希望以后能变成一种常规工作。但是由于“历史欠账”太多,在取得绝大多数人认可之前, 统计局要做的事情还有很多。最重要的是,一方面对基尼系数的估算过程给出详细的解释,也有必要公开原始调查数据,允许民间研究机构对数据的可靠性进行验 证,以消除公众的质疑。从研究角度来看,基尼系数只是一个数值,但取得该数值的背后过程是极其复杂的。从社会公众的反应来看,基尼系数不仅是一个数值,它 被倾注了更多地理性的,非理性的主观情绪,也有“历史的记忆”。

  这次社会公众对国家统计局公布的基尼系数强烈质疑的现象应该引起我们更多的思考。当面对着两个不同的基尼系数 时,我们得出了一个相对可信,一个相对不可信的判断,然而一些网民(主要是“自选择”后的网民)却把可信的认为不可信,不可信的认为可信。真是让人经受了 一种“假作真时真亦假”的无奈感。这个现象的问题不在于基尼系数数值本身的准确性,而在这个数值之外。正如英国诺丁汉大学姚树洁教授所指出的那样:“西南财大的样本太小,有许多不科学的地方,其结果更是不科学的、不靠谱的。可是,这样的数据,老百姓喜欢,网民喜欢。大家宁可不相信政府,宁可相信带有娱乐性质的数据” 。作为官方统计部门更应该看到这一点,应加快统计制度的改革,保证统计数据的真实性,准确性,以取信于民。

转自:财新网

分享到: