岳希明、李实:缺少说服力的回应——对西南财大住户调查项目公布的基尼系数再质疑
岳希明,李实
发表时间:2013-2-3 10:43:43    最近修改时间:2013-2-23 12:14:29
摘要: 今年1月24日华尔街日报中文网站刊登了我们题为《我们更应该相信谁的基尼系数?》文章,其中我们比较了国家统计局最新发布的基尼系数和西南财大住户调查项目(以下简称西财项目)公布的基尼系数,并得出国家统计局的数值较西南财大更可信的结论。与此同时,我们对西南财大住户调查的抽样和问卷中收入指标存在的问题提出了质疑。对此,甘犁教授两天后在同一网站上发表了《以公开科学的抽样调查揭示真实的中国》一文(以下简称“真实”),以回应我们的质疑。遗憾地是,“真实”并没有很好地回答我们大部分的质疑。有幸地是,西南财大住户调查数据已经对外公开,我们利用该数据对一些相关指标进行了再计算,并以此为基础对西南财大住户调查项目公布的基尼系数再质疑。
关键词:基尼系数

    今年124日华尔街日报中文网站刊登了我们题为《我们更应该相信谁的基尼系数?》文章,其中我们比较了国家统计局最新发布的基尼系数和西南财大住户调查项目(以下简称西财项目)公布的基尼系数,并得出国家统计局的数值较西南财大更可信的结论。与此同时,我们对西南财大住户调查的抽样和问卷中收入指标存在的问题提出了质疑。对此,甘犁教授两天后在同一网站上发表了《以公开科学的抽样调查揭示真实的中国》一文(以下简称真实”),以回应我们的质疑。遗憾地是,真实并没有很好地回答我们大部分的质疑。有幸地是,西南财大住户调查数据已经对外公开,我们利用该数据对一些相关指标进行了再计算,并以此为基础对西南财大住户调查项目公布的基尼系数再质疑。

 

1.     有关抽样和权重问题

真实”提到通过使用加权的方法来调整样本偏差的问题,我们并不认为有关权重问题就会得到解决。众所周知,我国的城乡收入差距是非常明显,因此在估算全国收入不平等指数时,样本的城乡分布应当与全国人口的城乡比重相一致。根据西财项目提供的抽样权重变量(我们假定该权重为家庭权重,下同。)计算出城市和农村的比重为54%46%。这一比重与2010年人口普查给出的城乡家庭分布和城乡人口分布均有一定的偏差。(根据2010年第六次人口普查数据计算,城镇和农村的家庭分布比重为51.6%48.5%,人口分布分别是50.3%49.7%)。

根据西财项目的抽样文件,我们质疑该调查县市样本主要集中在东部,村/居委会样本明显偏重落后地区的村委会和发达地区的居委会。对此,甘犁教授好像没有理解。关于市县样本偏向东部地区的偏差,从《CHFS抽样调查设计说明》来看是非常清楚的。具体地说,该调查80个样本市县中,东部地区占40%,而全国2585个市县中东部比重仅仅为34.3%。不仅如此,根据西财项目住户数据中给出的抽样权重变量计算,东、中、西部地区的样本户比重为53%25%22%,而六普数据显示在东、中、西部地区的家庭户比重分别为36.5%36.5%27.0%。二者之间的很大差别表明了西财项目抽样的明显偏差,这也是我们质疑其数据可信性的理由之一。

我们关于/居委会样本明显偏重落后地区的村委会和发达地区的居委会的质疑,是从西财项目的抽样说明中得出的推论。在第一阶段抽样上,把80个样本市县按非农人口比重五等分组的基础之上,对其中的最低组仅抽取村委会,而没有抽取居委会。相反从最高组中仅抽取居委会,而没有抽取村委会。换句话说,这样的抽样实际上是在非农人口比重最高的16县(=80*20%)中仅抽取城市住户样本,相反在非农人口比重最低的16县中只抽取农村住户样本,这不仅会导致抽样偏差,更严重的是这种偏差无法通过调整权重给予纠正,原因是这两类住户的样本不存在。不仅如此,这样的抽样偏差会导致两个后果。其一,非农人口比重较高县的农户在农村中应当属于高收入户,缺少这部分样本直接导致农户收入的低估。相反,非农人口比重较低县的城市家庭在城市中应当属于低收入户,样本中缺少这部分家庭必然高估城市家庭的收入水平。其二,从城乡总体来看,上述两类住户的收入应当处于中等收入水平,缺少他们将直接导致全国整体收入差距的高估。需要再次强调的是,由于样本缺少了这两部分家庭,抽样偏差是无法用加权的办法来修正的。

此外,真实以小样本的CGSSSCF以及PSID等住户调查为例,来辩解西财项目小样本量不是问题。我们也没有认为小样本住户调查本身是不可取的,我们的问题在于它是否在收入分布上具有全国代表性,并由此来估计全国的收入差距的基尼系数。我们不知道SCFPSID的数据是否用来计算美国的具有全国代表性的基尼系数,至少CGSS数据的收集者从未主张过其基尼系数具有全国代表性。从数据的性质来说,PSIDThe Panel Study of Income Dynamics作为一种长期追踪调查,其数据适合研究收入流动性,并不能用来估计一个年份的全国的收入差距。

 

2.     有关收入等相关指标的偏差问题

根据西财项目公布的调查问卷,我们质疑西财项目仅仅收集了受访人与配偶的收入,而没有收集其他家庭从业人员的工资性收入。对此,真实称在短问卷季度回访中补充了这部分人的工资收入信息,但是在西财项目公布的数据中并没有体现出来。该数据显示,在具有货币工资(a3020)3571个城市家庭成员中,除一人之外,其他人要么是受访者本人(a2001=1),要么是配偶(a2001=2)(这里出现的一个人例外,最大可能是由于录入错误所致),而从第二职业取得工资收入(a3036)44人均为受访者或配偶。但当我们检查城市家庭有工作的家庭人员人数时,发现许多家庭超过3人。

对于西财项目在计算农户自产自用农产品可能存在问题的质疑,真实回应称“调查很明确地询问了受访家庭在上一年所有农业生产项目生产的农产品按市场价格计算的总价值,以及上一年从事农业生产经营的总成本,并据此计算农业生产的净收入。”我们的疑虑并没有因此被打消。农户生产的农产品种类是多种多样的,既包括各种粮食作物,又包含各类蔬菜和水果,(如果采用大农业的概念)同时也包括各种畜牧业养殖。只有分项核算这些农产品的生产量,另外再加上价格和生产成本的信息,才能准确地计算包括外售和自销农产品的农业收入。缺少分项核算而笼统地询问农产品总产值以及经营总成本是难以准确地核算包括自产自用农产品在内的农业经营收入的。

我们与真实争论的另一个话题是在住户调查两种数据收集方法(日记账和一次性回忆)的相对利弊问题上。真实对日记账种种缺陷的大部分讨论属于直觉猜测,经不住推敲。这在很大程度上说明真实作者对国内住户调查的记账系统和操作过程不甚了解。由于记账是由调查员(辅助调查员)协助调查户进行的,既不会出现真实所认为的对记账指标的理解不一致会造成较大的数据偏差,也不会出现受访户往往由于记账负担过重而少报或胡乱报,严重影响数据收集的质量的情况。而且,由于记账原则上是每天进行的,因此记账负担并没有想象的那样重。相反,由于人的记忆力的局限性,一次性回忆的数据收集方式客观上会丢失很多信息,在收集收入和消费等信息方面尤其如此。本文作者与许多国外研究收入分配的专家也讨论过这个问题,他们都对这种收入调查方式给予高度评价。他们认为这种方式在发达国家做不了,主要是因为成本太高了。但是这种高成本在一定程度保证了数据的准确性。

真实一方面在夸大记账式收入调查方式的缺陷,另一方面虚夸了其使用的回忆式收入调查方式的优势。真实甚至夸口“CHFS的访员经过了严格的访问技巧培训,具有熟练的访问技巧和认真负责的访问态度,能够将非抽样误差尽可能降低,从而保证数据质量。对此,我们可以看一下其数据的填报情况,来审视了一下他们熟练的访问技巧和认真负责的访问态度。从其城镇调查数据中不难发现,大部分户主的一些重要的就业信息如职业,单位所有制性质,单位类型(政府、事业单位、企业等)都没有填报。数据显示,在回答有工作的2916人城市家庭户主中,31%缺少职业信息,31%没有行业所属信息,62%没有填报工作单位性质信息,36%没有回答关于工作单位类型的问题。其他类似的问题还有很多。一些主要变量的填补缺失情况如此严重,又如何让人相信其数据质量的可靠性呢?更不能让人理解的是,对这些易于获得的调查内容都没有收集上来,而对于难以获取的收入、财产等调查内容却又如何能被准确地收集上来呢?

 

  3.住户收入及收入差距估计偏差问题

西财项目的缺陷不仅表现在样本抽样和收入数据收集上,从其数据中得到的许多结果也难以解释。在这一点上,迄今为止已经有许多质疑。以下从基尼系数估计值的随意性,以及低收入人口收入过低问题两点来解释西财项目结果存在的问题。为此我们把问题归纳为以下三个:

第一,利用西财项目公开的数据,我们无法复制0.61的基尼系数。我们老老实实按照西财项目相关资料的解释,利用该数据分别计算了全国、城市以及农村家庭收入的基尼系数,计算结果为0.560.540.54,与西财项目公布的0.610.560.60相差较大。

 

不同估算方法得到的基尼系数

 

去掉收入小于零、以及最低和最高收入1%的家庭

保留收入小于零、以及最低和最高收入1%的家庭

家庭收入(以家庭为单位)

   

全国

0.56

0.66

城市

0.54

0.65

农村

0.54

0.62

人均收入(以个人为单位)

   

全国

0.61

0.71

城市

0.58

0.69

农村

0.56

 0.65

 

第二,西财项目的估计方法,至少在两个方面需要进一步规范。一是将1%的最高收入家庭和1%最低收入家庭从样本中删除掉的做法具有很强的任意性。它让基尼系数的估计值变得非常随意,变得更加适应估计者的意图。如果对数据的质量有信心的话,这样做是没有道理的;即使数据质量有问题,这样做也不能解决数据质量的问题。二是,在我国,估算收入差距通常以个人为单位(将家庭收入平分到每个家庭成员头上,每个家庭成员成为一个独立的观测值),而不是像西财项目那样以家庭为单位计算基尼系数的。为了加以对比,利用西财项目数据,我们计算了居民人均收入的基尼系数(计算时使用西财项目给出的加权变量),计算结果见表1

计算结果显示,全国居民人均收入基尼系数为0.71,城镇和农村分别为0.690.65。值得强调的是,这些结果是在没有包括非法收入的情况下得到的,包括非法收入之后,基尼系数会变得更高。如何解释如此高的基尼系数,我们感到无能为力! 是中国真的成了前无古国,后无来国的高度不平等国家?还是产生这些基尼系数的数据出了问题?也许“真实”的作者也不相信这样的结果,只好通过裁减样本来降低基尼系数。如何裁减样本?把基尼系数降低到何种程度?不仅是一种随意性,也是一种艺术性。

第三是低收入人口的收入低估问题。西财项目给出的低收入人口的收入水平过低,低到令人难以置信的程度。首先看他们的城镇家庭样本,2010年城市家庭收入25%分位数为6420元,根据这一数字以及城市家庭平均人口数(3.03人,根据西财项目数据计算)计算可知,城市约有1亿的户籍人口,其人均月收入小于193元,明显低于2010年全国城市平均最低生活保障标准(每人每月236)。根据民政部应保尽保原则,人均收入低于低保线的家庭均可向政府申请低保补助,而民政部公布的当年全国享受城市低保人数不足2400万人。即使考虑到诸多导致应保而不能保的因素,二者之间的差异也是难以理解的。

我们再来看农村低收入家庭收入低估的问题。西财项目公开资料显示,2010年农村家庭收入25%分位数为6294元,根据这一数字以及农村家庭户均人口数(3.76人)计算,当年约有1.5亿的农村人口,其人均年收入小于1100元。把这一结果与国家统计局的农村贫困线和贫困人口规模比较,可以知道其问题所在。在2010年,国家农村的扶贫标准(也就是贫困线)是每人每年纯收入1274元,由此估计出来的农村贫困人口为2688万人,这远远低于西财项目的1.5亿人。而且,从西财项目的调查数据中,按照1274元贫困标准会得出不止1.5亿的贫困人口。

 

4.     我们的数据已公布

“真实”要求我们公开我们的基尼系数估计值和估计方法,其实我们早已做到了这一点,只是没有炒作罢了。我们参加的收入分配项目,自1988年迄今已进行了4次全国范围的住户收入调查,第5次调查正处于准备阶段。作为项目研究成果,以往每一轮住户调查均有一部中文和英文专著出版,另有大量的学术论文发表,最近一次调查的中英文研究成果正在出版过程中,有需求的话可以随时提供。根据最近一次住户调查计算结果,2007年我国居民人均收入的基尼系数为0.476,较上一轮住户调查得到的20020.455的基尼系数增加了两个百分点。在计算基尼系数时,除了城镇和农村住户样本外,两年均包括流动人口样本。我们把居民收入定义为国家统计局常规调查的可支配收入加自有住房的折算租金。因涉及到使用不同的收入定义、是否包括流动人口、以及不同的权重等问题,基尼系数估计值略有不同,但差异不大。当然,这些估计值也会受到高收入人群样本不足的影响,也不反映灰色收入的影响。

四次调查的数据也可以在北京师范大学收入分配研究院的网站(http://www.ciidbnu.org/)上申请获取,更希望研究人员广泛地使用数据并对其提出批评建议。

 

 

本次学术讨论的相关文献:

岳希明、李实:我们更应该相信谁的基尼系数?

甘犁:以公开科学的抽样调查揭示真实的中国

岳希明、李实:缺少说服力的回应——对西南财大住户调查项目公布的基尼系数再质疑

甘犁:关于中国家庭金融调查数据的再说明

 

 

(本文为原创,如需转载,请注明出处)

(作者单位:中国人民大学财政金融学院;北京师范大学经济管理学院)

(责任编辑:詹鹏)

分享到: