[岳希明、李实]关于基尼系数争论的回顾
岳希明;李实
发表时间:2013-7-8 16:19:54    最近修改时间:2013-7-8 21:12:34
摘要: 本文对今年初的基尼系数争论进行回顾。这次争论的核心问题包括:样本偏差问题;基尼系数估计的随意性问题;农村低收入人口的收入低估问题;日记账调查与回忆式调查的优缺点问题;农户自产自用农产品收入的准确核算问题;家庭成员工资收入信息的漏报问题。在此基础上,本文还阐述了几点总结:(1)质疑主要针对其估计结果的准确性;(2)本文仍然认为,与西财的估计结果相比,国家统计局公布的基尼系数更为可靠,但并不表示国家统计局的基尼系数没有问题;(3)重申质疑的目的是出于学理辩伪的需要和学者自身的责任感,作者也有长期质疑官方统计的经历。
关键词:基尼系数; 收入差距; 西南财经大学

 1、争论的起因与焦点

2012年12月9日,西南财经大学中国家庭金融调查与研究中心(CHFS:China Household Finance Survey)根据其住户调查(以下简称西财),公布了中国居民收入分配的基尼系数:2010年全国的基尼系数为0.61,城镇的基尼系数为0.56,农村的基尼系数为0.60。这些估计值远远高于之前官方的和民间的估计结果,因此得到了社会的普遍关注。在随后的一个多月时间内,国家统计局公布了过去十年的基尼系数,其中2010年全国的基尼系数为0.481,其明显低于西财的估计值。这不可避免地引起了国内学术界的争论,也引起了媒体和网民的大讨论。对于两个相差甚远的基尼系数估计值,自然出现了不同观点和看法,有的认为个国家统计局的基尼系数存在低估的问题,有的则认为西财的基尼系数存在高估的问题。

在争论中,我们是主要的一方。根据我们长期对我国收入分配的跟踪研究,我们认为虽然国家统计局的基尼系数存在低估的问题,但是西财的高估问题更为严重。也就是说,国家统计局的基尼系数较西财的估计值更可信。为了说明这一看法, 我们于1月24日在华尔街日报中文网站上发表了题为“我们更应该相信谁的基尼系数?”,对西财的基尼系数的可信性进行了质疑(以下简称《质疑》)。对此,西财项目负责人甘犁教授做出了题为“以公开科学的抽样调查揭示真实的中国”的回应(以下简称《回应》)。然而,《回应》并未消除我们的怀疑。相反,随着对西财项目公布数据的进一步细致研究,我们的疑虑却有增无减。由此,我们在相同网站刊登了“对西南财大基尼系数的再质疑”的文章(以下简称《再质疑》)。对于我们的再次质疑,甘犁教授于2月21日以“关于中国家庭金融调查数据的再说明”做了回应(以下简称《再回应》)。

《再回应》说明了西财项目数据信息的不断变动情况。除此之外,它并没有提供实质性的,令人信服的内容以增加其基尼系数估计值的可信性。鉴于甘犁教授不再就此进行更多的讨论,我们认为有必要对争论的内容进行系统性的总结,通过对双方观点的梳理,不仅有助于读者很容易地了解争论的内容,同时也为我们进一步考察西财住户调查数据以及基尼系数估计值提供了一个背景。这也是本文的来由。

下面,我们把争论的内容归纳为以下几点,逐一地进行介绍和评论:

  •   样本偏差问题
  •   基尼系数估计的随意性问题
  •   农村低收入人口的收入低估问题
  •   日记账调查与回忆式调查的优缺点问题
  •   农户自产自用农产品收入的准确核算问题
  •   家庭成员工资收入信息的漏报问题

 

2、质疑与回应

2.1 样本偏差问题

首先有必要对西财住户抽样方法给予简单的介绍。西财住户调查采取了三阶段抽样方法。 第一阶段抽样抽取市县;第二阶段从样本市县中抽取居/村委会;第三阶段从样本居/村委会抽取住户。各阶段设计的样本量为:全国样本市县为80个,每个样本市县中抽取4个居/村委会,全国共320个样本居/村委会,从每个居/村委会抽取20户到50户不等的样本户,但平均样本户数为25户,全国样本户规模在8000户~8500户。项目的最终样本量为8438户。

在第一阶段抽样抽取市县时,其抽样单元不是全国31个省的所有市县,其中西藏、新疆、内蒙古等3个自治区所有市县被排除抽样单元之外,由此产生的抽样单元为全国25个省的2585市县。西财项目要求,80样本市县的地理分布要均匀,且富裕地区的样本不能过少。为此,25省的2585个市县按人均GDP划分为十层,在每一层内,以市县人口数为权数采取PPS抽样,各抽取8个样本市县,全国共抽取80个市县。80个市县中,东、中、西三个地区的样本数分别为32、27、21。在本文的下一节,我们将根据西财项目给出的权数变量,来评价其样本户在东、中、西三个地区之间的分布及其与总体分布之间的差异。

在第二阶段抽取居/村委会时,第一阶段抽取的80个市县样本按非农人口比重标准五等分组,从非农人口比重最高组到最低组,抽取居委会与村委会个数的比率依次为0:4、1:3、2:2、3:1、4:0。居委会和村委会比率直接关系到住户样本的城乡分配,在下述的第三阶段抽样中,从村委会抽取的住户为农村住户样本,从居委会抽取的住户为城镇样本。因此,此处村/居委会样本的抽取办法意味着,从非农人口比重最高的16个市县(把80个市县五等分组,每组为16市县)仅仅抽取城镇样本住户,而不抽取农村样本。相反,在非农人口比重最低的16个市县仅抽取农村样本住户,而不抽取城镇样本。

第三阶段抽样是从村/居委会样本中抽取住户样本。在这一阶段抽样,从村委会抽取的(农村)样本户统一设定为20户。对于居委会,为了“更多地抽取富裕户”,样本居委会按社区平均住房价格分成四组,从房价最高组到最低组抽取的样本户数分别设定为50、45、40、35。

对于上述抽样方法,我们的质疑有三点:

其一,样本量小,抽样误差大,样本难以有全国代表性。

其二,随机抽样原则没有得到彻底的贯彻。在以前质疑中,我们仅仅提到了第二阶段抽样中存在的非随机抽样问题。如上所述,在第二阶段抽取居/村委会时,从非农人口最高的16个市县中仅抽取居委会,而从最低的16个县市中仅村委会,这意味着把前者16个县市中的农村家庭,以及后者16个县市中的城镇家庭的入样概率人为地设定为0,这显然违背随机抽样的原则。此外, 明显违背随机抽样原则的操作还有:在第一阶段抽取市县时,西藏、新疆、内蒙古3个自治区所属市县被排除了抽样范围之外。

其三,西财样本的地区分布与总体分布偏差大。根据西财项目住户数据中给出的抽样权重变量计算,东、中、西部地区的样本户比重为53%、25%和22%,而第六次人口普查数据显示在东、中、西部地区的家庭户比重分别为36.5%、36.5%和27.0%。也就是说,西财住户样本中东部地区的比重较总体比重高出近17%。如此之大的差异说明西财项目样本缺少全国代表性。

对于上述质疑,甘犁教授给出了相应的回应。

对于样本过小的质疑,甘犁教授在《回应》中回应到:“在严格随机抽样的前提下,抽样误差随样本量的增加以几何级数递减。如果用8438户来推断总体均值,抽样误差约是总体标准差的1%,已经可以比较精确地推断总体。我们的抽样严格按照随机抽样过程进行设计,调查实施过程也严格按照随机抽样原则更换样本。样本量的数量大小并不能作为衡量一个调查准确与否的依据,这一点从国内外的其他调查就能看出。例如CGSS(中国综合社会调查)2006年的样本量约为10000户,SCF(美国消费金融调查)2007年之前25年的样本量为4000户,PSID(美国收入动态跟踪调查)2005年的样本量为5000户。我们认为,在合理、随机的抽样方案设计和严格的调查实施过程下,8000多户样本完全能够准确反映全国的总体水平。”在《再回应》中,除了重复《回应》中的一些表述之外,甘犁教授甚至说:“至于样本量的大小,既不是“能很好反映总体情况”的必要条件,也不是它的充分条件。一个样本量只有100的随机样本,照样能很好地反映总体情况;相反,即使一个样本量为100万的样本也并不一定能很好地反映总体情况。”

甘犁教授对“样本量过小”质疑的上述回应,基本没有说服力。首先,甘犁教授说:“8438户来推断总体均值,抽样误差约是总体标准差的1%,已经可以比较精确地推断总体。”根据抽样基本原理,样本分布的标准差(即甘犁教授所说的抽样误差)与总体标准差之比并不是衡量一个样本抽样精度大小以及样本量足够与否的尺度。从这一点讲,甘犁教授的回答是所答非所问。

其次,甘犁教授说的不错,在严格随机抽样的前提下,抽样误差随样本量的增加以几何级数递减。但这并不意味着西财项目8438户的样本量是足够的。相反,根据抽样基本原理计算的所需样本量以及各国相关实践,可以很简单地验证西财项目样本过小的缺陷。[1]抽样基本原理告诉我们,简单随机抽样的样本量大小依赖于调查者所能容许的相对误差、置信度大小、以及反映总体差异程度的变异系数。具体地说,调查者所能容许的相对误差越小,置信度越高,以及总体差异程度越大,最少样本量需要量也就越大。计算最低样本量需要总体变异系数的信息,而实践中总体变异系数通常取自抽样调查的估计值。根据从西财住户调查计算的家庭收入的变异系数(全国为2.85、城镇为2.65、农村为2.73),以及5%的相对误差率和5%的置信度计算得到样本最低需求量为:全国12 479户、城镇10 817户、农村11 422户。如果相对误差率为1%,所需样本量为更多。需要强调的是,这些样本量是简单随机抽样所需最低样本量,抽样基本原理显示,西财项目使用的多阶段抽样,其抽样误差要大于简单随机抽样,因此在保持相同抽样误差的情况下,多阶段抽样所需样本量更大。因此,西财住户调查样本量过小的事实是显而易见的。

不仅如此,各国住户调查实践也佐证了西财住户调查的样本量过小的问题。[2]美国联邦普查局(U.S. Census Bureau)负责实施的现时人口调查(Current Population Survey: CPS)是大家熟知的。CPS原为人口调查,但同时又有几个补充调查,其中年度社会与经济补充调查(Current Population Survey Annual Social and Economic Supplement: CPS ASEC)收集关于住户收入、消费等信息,是美国基尼系数估计的具体数据来源。CPS的样本量通常为60 000户左右。日本政府进行多项住户调查,[3]其中用于估算财产和收入基尼系数的主要是《全国消費実態調査》,[4]该调查每5年进行一次。该样本量很大,以平成21年(2009年)为例,2人以上家庭为52 404户,单身家庭为4 402户,二者合计56 806户。值得提及的是,像日本这样同质性较高的社会尚需要如此大的样本量,而对于住户差异程度较大的我国来说,所需要样本应当更多。迄今为止,国家统计局的住户调查按城镇和农村分别进行,样本量经历了由小到大的过程,目前城镇样本6.6万户,农村样本为7.4万户,全国合计14万户。相比之下,西财样本规模之小及其带来的问题则是不言而喻。

为了说明其小样本的“合理性”,甘犁教授甚至援引中国人民大学的CGSS、以及美国的SCF和PSID等小样本调查为例证,但他没有注意到,这些调查均是为特定目的的专项调查,没有人(包括项目的实施者)把这些住户调查作为具有全国代表性的样本,来估计全国居民收入差距的基尼系数。

对于西财抽样没有彻底贯彻随机抽样原则的质疑,无论是西财关于抽样方法的相关材料,还是甘犁教授的两次回应中,均没有给出相应的解释。如上所述,在西财第一阶段抽样中人为剔除了西藏等3个自治区所属市县,这显然违背了随机抽样的原则。对于上述在第二阶段抽样中(即从市县抽取居/村委会时)的非随机抽样问题,甘犁教授在两次回应中没有给出任何解释。我们之所以关注西财项目随机抽样不彻底问题,是因为目前抽样误差的理论都是以随机抽样为前提的,随机抽样原则不能得到彻底贯彻时,或者样本不完全是随机样本时,抽样误差的计算和其他统计推断均会受到影响。综上所述, 甘犁教授一再辩解说西财调查严格按照随机抽样原理, 这只是说的一套, 但是在实际操作过程中所做的是另一套。因此试图用随机抽样中样本量与抽样误差之间关系的原理原来说明西财住户调查的合理性是要大打折扣的,甚至有张冠李戴之嫌。

对于西财样本的地区分布与总体分布偏差大的质疑,甘犁教授的回应是:“第一阶段抽样设计的主要目的是保证样本市县人均GDP的分布与总体尽量一致,而非地理分布一致。抽样的事实也证明了这一点,CHFS样本市县与总体市县在人均GDP的分布上非常一致。在此基础上,我们也主动指出样本在地理分布上与总体存在差异。从上述两个方面可以看出,地理分布的差异并不一定会导致对收入分布估计的偏差,不能将地理分布与收入分布等同,从这个角度质疑CHFS数据的准确性是完全站不住脚的。”如此的回应,我们不认为有说服力。如上所述,西财住户样本东部地区比重高达53%,而相应的人口总体比重仅有36.5%。如果果真像甘犁教授主张那样,如此之大的偏差“并不一定导致收入分配估计的偏差”的话,那么在甘犁教授眼里,导致收入分布估计的偏差需要大到何种程度呢?值得注意的是,偏重东部的西财样本偏差,部分是人为原因而致,而不是随机抽样的结果。例如,第一阶段抽样时剔除了西藏等3个自治区所属市县。这三个自治区均为西部,其家庭户数占全国的比重近4%。

 

2.2 基尼系数估计的随意性问题

西财项目在计算基尼系数时,“将收入小于0的家庭去掉,同时去除最高和最低收入的1%的家庭。”[5]很显然,去掉最高和最低收入样本,将缩小基尼系数估计值。为何要去掉最高和最低收入家庭?为何去掉最高和最低收入1%的家庭,而不是0.5%或5%的家庭?为何权重不能解决最高和最低收入家庭问题?对于这些疑问,甘犁教授在《回应》中没有给出任何解释。任意去掉对基尼系数估计值有显著影响的样本,而不给出任何解释,自然让读者对其基尼系数估计值的可信性产生怀疑。

在得到西财公布的住户数据之后,利用其中的家庭总收入以及权重的信息,我们重新估计了基尼系数,由此产生了更多的疑问。我们把计算结果汇总一张表(见下表),并在《再质疑》中表述了我们的疑问。我们的疑问主要有两点:第一点是我们没能复制西财公布的全国0.61、城镇0.56、农村0.60的基尼系数。如表1所示,按照西财项目的做法,去掉收入小于0,以及最高和最低收入1%家庭之后得到的基尼系数,全国0.56,与西财公布的0.61有显著的差异。如表1所示,我们估计的城镇和农村的基尼系数与其公布的也有显著差异。这让我们对西财公布的基尼系数产生了更大的疑虑。

我们的第二个疑问是,西财公布的基尼系数是以家庭为单位计算的家庭收入基尼系数(更合理的做法是以个人为单位)。为了与统计局公布的以家庭成员为单位计算的人均可支配收入的基尼系数比较,使用西财公开的住户数据,我们估计了个人收入的基尼系数,结果显示在表1的下半部分。由此可知,包括所有样本时全国基尼系数为0.71。对于如此之高的基尼系数,不仅我们不相信,数据收集者也不敢相信,所以采取了截取数据的办法来降低其基尼系数的估计值(如果公布了0.71的基尼系数, 社会轰动效应会更大一些)。这从另一方面说明了其调查数据存在着严重的问题。

中国收入分配研究院

甘犁教授在《再回应》中回应了我们的质疑。首先,对于为何去掉一些住户样本的质疑,甘犁教授说:“在随机抽样下,统计调查的住户涵盖了各个阶层,其中不排除有极端值的情况,不管是收入的极端值或是资产的极端值,不管是极高的数据还是极低的数据,对于推断总体的计算和分析都有很大的影响,但也是很有帮助的。”也就是说,在计算基尼系数时去掉部分样本的理由是为了消除住户调查中极端值的影响。即使删除样本的任意性是否合理存而不论,极少数样本的“很大的影响”则意味着西财样本产生的基尼系数对高收入家庭非常敏感。正如甘犁教授在《再回应》中所言,在其样本中再剔除0.5%的最高收入家庭,会使全国基尼系数从0.61降到0.564。对高收入样本如此敏感的基尼系数,暗示着相应的住户调查样本代表性和权重存在着一定的问题[6],这也是人们对其基尼系数产生怀疑的原因之一。

对于使用西财公开数据,无法复制西财公布的基尼系数估计值的质疑,甘犁教授给出了两个理由:一个是对高收入和高财富家庭的数据进行了截尾处理;另外一个是权数的变化。首先看后一种解释。根据甘犁教授的解释,西财项目在报告(即公布基尼系数的报告)发布之后根据谢宇教授对权重进行了微调。他们发布的数据是根据权重调整之前的数据计算的,而我们所使用的是权重调整之后的数据,两种结果的差异来自于权重上的差异。然而,事实上这一解释是无力的。甘犁教授在《再回应》中给出了他们根据权重调整之后估计的基尼系数,[7]结果是全国为0.61,城镇和农村为0.58和0.61。这些结果与他们根据权重变化之前计算的基尼系数几乎相差无几。由此可见,我们无法复制西财基尼系数的原因不在于权重的变化。

再看甘犁教授给出的第一个理由,即对高收入和高财富家庭的数据进行截尾处理。根据保护受访者隐私的原则,西财在公布数据时对高收入和高财富家庭进行了结尾处理,即对家庭收入或家庭财产高出给定金额的家庭,把其家庭收入或家庭财产替换成给定金额。根据西财相关资料解释,家庭收入的替换标准为年收入300万元,对于高出这一标准的家庭,将其收入替换为300万元,由此替换的家庭共7户。也就是说,他们对外公布的是截尾的数据,我们计算的基尼系数是根据截尾的数据,而他们公布的基尼系数是根据非结尾的原始数据计算的,因此我们计算的基尼系数要低于他们的数字。

可是,这个解释同样不能成立。我们的理由是,我们比较的基尼系数是去掉了收入小于0,以及最高和最低收入1%家庭之后计算的基尼系数,而这7个高收入户都属于被删掉的样本户中。从这个角度上讲,计算基尼系数的样本,我们和西财项目应当是相同的。

 

2.3 农村低收入人口的收入低估问题

西财项目的《中国家庭金融报告2012》显示,2010年农村家庭收入25%分位数为6294元,根据这一数字以及农村家庭户均人口数(3.76人)计算,当年约有1.5亿的农村人口,其人均年收入小于1100元。这一结果与国家统计局在2010年的每人每年1274元贫困标准,以及由此确定的当年2688万人的农村贫困人口相差甚远。由此我们质疑西财数据严重低估了农村低收入人口的收入水平。不仅我们,许多细心的读者都发现了这一问题。西财项目有关城镇低收入家庭的收入估计也存在类似的问题。

对此,甘犁教授的回应是,《中国家庭金融报告2012》中的家庭收入分布数据在计算总收入时漏算了家庭成员第二职业的收入。根据补充了家庭成员第二职业收入之后的数据计算,农村居民家庭收入25%分位数为7860元。这意味着甘犁教授承认了其《报告》中公布的农村低收入家庭的收入数字是错的(但是没有承认与此相关的其它不准确的数字)。除此之外,甘犁教授在《再回应》还给出了下列的数字:“根据2010年的贫困标准(家庭人均年收入低于1274元)计算,农村贫困家庭数量占全国家庭总数的6.9%,据此推算的贫困家庭户数约为2672万。”

这一解释给我们带来了更大的疑虑。虽然都使用相同贫困标准,但是国家统计局估计的贫困规模为2688万人,而甘犁教授给出的贫困规模为2672万户。根据户均3.76人计算,后者界定的农村贫困规模为前者的近4倍。这样巨大的差异再次表明了,在农户收入统计上,国家统计局的农村住户调查较西财要更准确可靠,而西财住户调查低估了农村低收入人口的收入水平。

 

2.4 日记账调查与回忆式调查的优缺点问题

作为入户调查时的数据收集方式,西财采用了一次性回忆方式。与此不同,国家统计局住户调查对收入、消费等家庭财务指标采用了日记账的方式。考虑到家庭收入和支出发生频度较高、多数情况下金额较小的事实,我们认为国家统计局通过日记账收集到的收入和消费信息较西财一次性方式更准确、更可靠。这一点在农村住户调查中尤其如此。

对此,甘犁教授在《回应》中对日记账列举了三大缺点:第一,记账式调查的拒访率高,引起很大的样本偏差;第二,由于日记账的方式没有访员在现场指导,因此对记账指标的理解不一致会造成较大的数据偏差;第三,日记账的数据缺乏监督机制,更容易产生数据错报。由于记账指标繁杂且记账时间较长,受访户往往由于记账负担过重而少报或胡乱报,严重影响数据收集的质量。

我们不能同意甘犁教授这种对日记账的描述,在《再质疑》中并作出了如下的回应:

“甘犁教授对日记账种种缺陷的大部分讨论属于直觉猜测,经不住推敲。这在很大程度上说明甘犁教授对国内住户调查的记账系统和操作过程不甚了解。由于记账是由调查员(辅助调查员)协助调查户进行的,既不会出现教授所认为的“对记账指标的理解不一致会造成较大的数据偏差”,也不会出现“受访户往往由于记账负担过重而少报或胡乱报,严重影响数据收集的质量”的情况。而且,由于记账原则上是每天进行的,因此记账负担并没有想象的那样重。相反,由于人的记忆力的局限性,一次性回忆的数据收集方式客观上会丢失很多信息,在收集收入和消费等信息方面尤其如此。本文作者与许多国外研究收入分配的专家也讨论过这个问题,他们都对记账式的收入调查方式给予高度评价。他们认为这种方式在发达国家做不了,主要是因为“成本太高了”。但是这种高成本在一定程度保证了数据的准确性。”

对此,甘犁教授在《再回应》中作出了如下的反应:

“需要澄清的是,我们只是客观陈述了“回忆式”调查和“记账式”调查各自的特点,以及回忆式调查被国内外广为采用的客观事实。我们一再强调,两种调查方法各有优缺点,说哪种调查方法更优并无根据。反倒是《再》文作者在承认“记账式”调查存在缺陷的情况下,对“回忆式”调查方式全盘否定,得出“记账式”方法优于“回忆式”调查这一结论,进而全盘否定CHFS数据的可靠性,对这样的《质疑》不仅我们不能接受,国际上绝大多数抽样调查机构也不会接受。”

以上是关于住户调查中日记账和回忆式数据收集方式的争论,对此我们想做以下的补充:我们熟知日记账和回忆式各自的优缺点,同时也知道世界绝大多数住户调查的数据收集方式的回忆式,而不是日记账。但重要的不是简单地、单靠逻辑推理地罗列某种方式的优点或缺点,而是通过挖掘不同数据收集方式发挥其长处的环境和前提条件,对现实中实施的不同数据收集方式给出比较和评价。在这一点上,我们相信,甘犁教授是前者,而我们是后者。

 

2.5 农户自产自用农产品收入的准确核算问题

农户自产自用农产品收入的核算,不仅十分重要,而且是非常困难的。其重要性在于,农户自产自用农产品是以农业生产经营为主农户的重要收入来源,对于低收入农户尤其如此。不能准确核算这部分收入,很容易低估低收入农户的收入,由此高估收入差距和贫困发生率。农户一年之中经营的农产品(大农业的概念),既包括小麦、谷子、蔬菜、水果等,也包括猪、牛、马、羊等,因地区而异,有时还可能包括林业产品和水产品。这些产品在家庭经营中所占比重,因家庭而异,但同一家庭经营多种产品的情况是常见的。更重要的是,在这些农产品中,有些是通过出售得到现金收入,有些则是直接用于自己消费。有些是一年只发生一次,有些则是日常频繁发生的。较为完整地记录这些产品的产量、以及出售和自用数量,并把自用部分按市场价格折算成收入,其困难程度可想而知。对此,日记账方式较一次性回忆具有明显的优势也是显而易见的。在核算农业经营收入上,国家统计局不仅采用日记账,而且有详细的农产品名录,因此其核算要更准确。

下面看看西财住户调查是如何收集和核算农户自产自用农产品收入的,以下是其调查问卷中收集农业经营收入的问项:

 

◆[B1005] 去年,您家从事农业生产经营的毛收入是多少?

◆[B1012] 去年,您家从事农业生产经营的总成本是多少?

◆[B1013a] 目前,您家生产出的上述农产品价值多少?(单位:元)

 

由于前两项与最后一项的调查时间不同(“去年”不同于“目前”),因此农户农业生产经营收入应当等于[B1005]-[B1012],即毛收入减去总成本。如此计算的农业生产经营收入能否既包括农户生产并出售的农产品,又包括留存自用的部分,在很大程度取决于农户对农业生产经营毛收入的理解。通常情况下,农户仅仅把出售农产品取得的现金收入看做收入,而并不把留作自用的部分视为收入。更重要的是这样笼统地问农户的农业经营毛收入和总成本,遗忘,漏报以及给出似是而非答案的情况会大量出现,这不可避免地会带来农户收入的低估。这也是我们对西财项目能否较为准确地核算自产自用农产品收入怀疑的依据之一。

对于我们的质疑,甘犁教授在两次回应中只是反复强调其“调查很明确地询问了受访家庭在上一年所有农业生产项目生产的农产品按市场价格计算的总价值,以及上一年从事农业生产经营的总成本,并据此计算农业生产的净收入。”

直率地讲,我们对西财项目对农业生产经营收入,尤其是其中的自产自用农产品收入的核算只是怀疑,但甘犁教授的回应没有给出具体细节,因此不足以消除我们的疑虑。

 

2.6  家庭成员工资收入信息的漏报问题

我们的《质疑》发表时,西财项目数据还没有对外公布。根据其住户调查问卷,我们指出在工资收入的收集上仅限于户主和配偶,而没有包括其他家庭成员。对此,甘犁教授《回应》道:“在2011年的调查访问中,由于CHFS调查问卷较长,出于调查时间成本和数据质量的考虑,CHFS只询问了受访者(最了解家庭财务信息的成员)及其配偶的收入信息。但在随后进行的短问卷季度回访中,CHFS补充询问了受访家庭所有家庭成员的工资薪金收入及家庭总收入,并据此对2011年调查访问的收入数据进行了校准。通过与季度回访问卷数据的比较和校准,我们有充分的理由相信,CHFS关于家庭收入的数据是可靠的。”

在得到西财公布的个人层面数据后,我们仔细地观察了相关变量,发现具有工资收入的家庭成员信息的只有户主和配偶,其他家庭成员相关信息均显示为0或缺失值。据此我们在《再质疑》提出了同样的疑问。在甘犁教授《再回应》中,我们得到如下的回答:

“首轮调查为了节约面访时间,增加受访户的配合程度,我们着重询问了户主与配偶的工资收入信息,但需要强调的是,以家庭为核算单位的收入均被询问。同时,在后续的季度回访中,我们再次询问了家庭总收入和总工资收入情况,对首轮的收入数据进行了必要增补。在发布的数据中单独生成了变量记录这部分补充信息,而不是在原始数据上直接更改。《再》文作者指出的“这类信息在公布的数据中并没有体现”是毫无根据的。”

 

很显然,甘犁教授在《再回应》中仍然没有回答我们的问题。对此,我们百思不得其解。如果在公开的数据中已经包括户主和配偶之外家庭成员工资收入的信息,那么甘犁教授为何不直接指出相关变量名呢?如果该信息没有包含在公开数据中,也可直接说明,省去我们费神费力地去找“补充信息”。至今我们尚不清楚户主和配偶之外家庭成员工资收入信息究竟在何处。

我们之所以执着地询问该信息的出处,是原因该信息十分重要。计算家庭收入构成,以及估计教育回报率等等,都需要这一信息。缺少这一信息,整个家庭工资性收入将被低估,而教育回报率也成了仅限于户主和配偶的估计值。

关于其他细小问题的争论在此也就不一一细说,有兴趣的读者可参考我们两次质疑的文章和甘犁教授的两次回应文章。

 

3、结束语

   回顾这场有关基尼系数的争论,我们有以下几点结论和感想。

第一,对于西财项目估计的基尼系数,我们质疑主要针对其估计结果的准确性。该项目负责人不仅主张其调查数据具有全国代表性,而且一再宣称其基尼系数的估计结果是真实可靠的、也是合理的。根据对该项目样本量、抽样方法以及其他相关问题的讨论,我们认为西财调查数据不仅不具有全国代表性,而且样本偏差和收入低估等问题带来了其基尼系数估计值的明显高估,起到了误导公众的效果。

第二,我们仍然认为,与西财的估计结果相比,国家统计局公布的基尼系数更为可靠。对此,我们需要再次强调:这一点并不意味着国民统计局的基尼系数没有问题,其低估问题也是存在的。而西财的基尼系数如此之高,并不是像人们想象的那样,是因为其住户调查收集到了人们普遍关注的灰色收入(尤其是非法收入),而是其抽样缺陷和收入核算不准确所导致的。

第三,说到我们质疑的动机,从《再回应》可以看出,甘犁教授似乎认为我们质疑的原因是“因为采取了与官方调查不同的方法,得出了不同结论,…”。如果甘犁教授真的这样认为的话,那就错了!我们既没有兴趣、更没有义务为国家统计局的任何统计进行辩护,而且我们有长期质疑中国官方统计的经历[8]。对西财调查数据及其基尼系数的质疑,完全出学理辩伪的需要和学者自身的责任感。长期使用纳税人的钱从事收入分配研究,我们有义务让纳税人了解我们研究的真实情况,或者说“真实的中国”。我们为中国收入不平等居高不下感到忧虑,我们期待政府在改善收入分配,增加低收入人口收入水平做出更大的努力,我们希望通过自己的研究为改善我国目前收入分配状况尽微薄之力,但不希望看到通过不真实的“研究成果”来渲染公众的不满情绪。我们希望甘犁教授也是如此,更希望我们与他的分歧仅仅是学术观点的不同。

 

 

参考文献:

甘犁,《以公开科学的抽样调查揭示真实的中国》,http://cn.wsj.com/gb/20130125/OPN150813.asp;或http://www.ciidbnu.org/news/201302/20130223120202706.html

甘犁,《关于中国家庭金融调查数据的再说明》,http://cn.wsj.com/gb/20130221/OPN071222.asp?source=channel;或http://www.ciidbnu.org/news/201302/20130223120901706.html

岳希明、李实,《我们更应该相信谁的基尼系数》,http://www.cn.wsj.com/gb/20130124/OPN120117.asp?source=UpFeature; 或http://www.ciidbnu.org/news/201301/20130123092800706.html

岳希明、李实,《对西南财大基尼系数的再质疑》,http://www.cn.wsj.com/gb/20130205/OPN092607.asp;或http://www.ciidbnu.org/news/201302/20130203104343706.html

岳希明、戴明峰,2013,《西财住户调查的抽样问题》,未刊登论文。

万海远,2013. 《样本缩减与基尼系数估算:简评西南财大调查样本偏差造成的基尼系数高估问题》,中国收入分配研究院工作论文:http://www.ciidbnu.org/news/201307/20130708211133706.html



[1] 本自然段以下内容来源于岳希明、戴明峰(2013)。

[2] 本自然段的讨论同样根据岳希明、戴明峰(2013)。

[3] 关于日本的住户调查,参照日本政府总务省统计局网站:http://www.stat.go.jp/data/guide/2.htm

[5] 西南财经大学中国家庭金融调查与研究中心,《中国家庭收入不平等报告》,2012年12月9日,中国•北京第1页脚注1。

[6] 如前所述,人为地增加高收入样本比重,如后所言,无意中低估低收入家庭的收入,造成了中等收入家庭样本偏低,也会带来基尼系数的高估。根据万海远(2013)的计算,如果将西财样本中中间80%的家庭样本扩大50%,那么计算出的基尼系数将会由原来的0.587下降为0.507,下降幅度为13.6%。

[7] 甘犁教授的原话是:“2012年12月底,在对抽样权重进行调整之后,我们重新计算了基尼系数,并对CHFS主页上发布的《中国收入差距报告》进行了更新。权重调整后的计算结果与CHFS在2012年12月9日发布的结果基本一致,全国的基尼系数为0.61,城镇和农村的基尼系数分别为0.58和0.61。”,详细参见“再回应”。

[8] 我们收入分配课题组,从一开始进行收入差距估计时,就采用了与国家统计局不同的收入定义,估计出了与国家统计局不同的收入差距结果。有兴趣的读者可以参阅赵人伟、格里芬主编《中国居民收入分配研究》(中国社会科学出版社,1994年)。

 

(本文也发布于这里:财新网

(责任编辑:詹鹏)

分享到: