甘犁:关于中国家庭金融调查数据的再说明
甘犁
发表时间:2013-2-23 12:09:01    最近修改时间:2013-2-23 12:16:28
摘要: 本文是甘犁教授对岳希明教授、李实教授的《对西南财大基尼系数的再质疑》做出回应。主要涉及:关于抽样与权重的在说明;关于数据准确性的再说明;关于基尼系数估计的再说明;关于收入分布的再说明。
关键词:基尼系数,抽样调查

中国家庭金融调查与研究中心自2009年夏天开始,投入了大量的人力、物力进行全国范围的调查,以便于对中国经济运行状况做深入的分析,为制定公共政策提供科学的依据。近来,我们的工作似乎受到一部分人的格外关注。其中的代表人物岳希明、李实教授最近就我们的工作在华尔街日报中文版接连发表两篇文章。我们感谢两位教授对我们工作的批评和指教,相信两位的一些见解是基于对我们数据的误解和误读,并不是有意的曲解。为此,我们对两位教授最近发表的《对西南财大基尼系数的再质疑》(以下简称《再》文)做出回应,这也是最后一次对两位教授涉及到学术争论的部分做出的回应。

在回应之前,先再次介绍一些统计学的基本常识。众所周知,统计分析是对从一个总体里抽取的样本进行建模、计算和分析。因此,统计分析的结果是否能反映总体的真实情况取决于样本是否随机、模型是否正确、计算有没有错误以及对模型的分析是否用了恰当的方法。任何一个环节的错误都会导致最后结果的误导。通常,限于经费和时间的限制,样本是从总体中抽取的很小部分,因此为了保证统计分析结果能反映总体的真实情况,样本的随机性是至关重要的。

至于样本量的大小,既不是“能很好反映总体情况”的必要条件,也不是它的充分条件。一个样本量只有100的随机样本,照样能很好地反映总体情况;相反,即使一个样本量为100万的样本也并不一定能很好地反映总体情况。样本量大小的真正作用是决定统计分析结果的误差。至于样本量需要多大,这与需要反映的总体标准差有关。如果用8438户来推断总体均值,抽样误差约是总体标准差的1%。岳、李两位教授关于“8400多户的样本量是否能很好地反映总体情况”的问题不是一个学术问题,而是个人的观点问题。 

关于抽样与权重的再说明

根据CHFS数据计算得到的城镇家庭与农村家庭的比重为54:46,城乡人口比例为49.7:50.3。2010年第六次人口普查数据显示,中国城镇和农村的家庭比例为51.6:48.5,城乡人口比例为50.3:49.7。CHFS城镇家庭与农村家庭比重与第六次人口普查的数据有细小偏差,而城乡人口比例已经非常接近,这从侧面表明了CHFS数据的准确性,这样的结果在《再》文中被解读为数据“有一定的偏差”,并作为质疑CHFS数据的主要根据之一,恐怕有失公正。

而且,在CHFS的抽样说明中已经明确指出,第一阶段抽样设计的主要目的是保证样本市县人均GDP的分布与总体尽量一致,而非地理分布一致。抽样的事实也证明了这一点,CHFS样本市县与总体市县在人均GDP的分布上非常一致。在此基础上,我们也主动指出样本在地理分布上与总体存在差异。从上述两个方面可以看出,地理分布的差异并不一定会导致对收入分布估计的偏差,不能将地理分布与收入分布等同,从这个角度质疑CHFS数据的准确性是完全站不住脚的。

关于数据准确性的再说明

对于收入数据的准确性我已经在《以公开科学的抽样调查揭示真实的中国》中进行了非常详细的说明。作为一项专业的调查,CHFS的收入口径是按照统计局的标准设立的,涵盖内容非常全面。我们收集了家庭工资收入、农业生产收入、工商业生产收入、资产性收入、转移收入等信息。与其他部分一起,问卷总共涉及600多个问题。首轮调查为了节约面访时间,增加受访户的配合程度,我们着重询问了户主与配偶的工资收入信息,但需要强调的是,以家庭为核算单位的收入均被询问。同时,在后续的季度回访中,我们再次询问了家庭总收入和总工资收入情况,对首轮的收入数据进行了必要增补。在发布的数据中单独生成了变量记录这部分补充信息,而不是在原始数据上直接更改。《再》文作者指出的“这类信息在公布的数据中并没有体现”是毫无根据的。

对农户自产自销部分的核算,CHFS在问卷中明确询问了受访家庭在上一年所有农业生产项目生产的农产品按市场价格计算的总价值,以及上一年从事农业生产经营的总成本,并据此计算农业生产的净收入,不存在《再》文中对农业收入质疑的问题。根据统计局的数据,2010年收入最低20%的家庭,家庭经营性纯收入占家庭总收入的比重为50%,而根据我们的数据,该比重为53%,没有低估农户自产自销的收入。

《再》文作者认为我们夸大了“记账式”收入调查的缺陷,虚夸了“回忆式”调查的优势。需要澄清的是,我们只是客观陈述了“回忆式”调查和“记账式”调查各自的特点,以及回忆式调查被国内外广为采用的客观事实。我们一再强调,两种调查方法各有优缺点,说哪种调查方法更优并无根据。反倒是《再》文作者在承认“记账式”调查存在缺陷的情况下,对“回忆式”调查方式全盘否定,得出“记账式”方法优于“回忆式”调查这一结论,进而全盘否定CHFS数据的可靠性,对这样的“质疑”不仅我们不能接受,国际上绝大多数抽样调查机构也不会接受。

对于数据细节方面的问题,感谢岳、李两位教授(以质疑的方式)给我们发回第一份用户反馈,但是两位的指责是完全没有事实根据的。根据我们的数据,家庭户主在城镇地区且有工作的有3167户,至于《再》文所称“回答有工作的2916人城市家庭户主”,不知道如何计算而来。而在3167户中,有2071户家庭户主是受雇于他人,只有这部分户主的职业单位信息以及职业所属行业特征才会被收集。剩下的家庭或从事私营企业,或在家务农,对这部分家庭的信息收集将跳到后面的相关问题,这是正常的问卷跳转。而在这2071户家庭中,回答职业信息的有1967户,占比95%,根本不是《再》文所说的“31%缺少职业信息”。回答所属行业信息的为100%,也与《再》文所描述的“31%没有行业所属信息”相差甚远。《再》文中“62%家庭未填报工作单位性质”也是毫无根据的。我们无从得知《再》文作者所提到的数据是如何计算的,也不敢揣测其动机。《再》文作者将正确的问卷跳转理解为数据缺失,对此我更愿意相信是对我们工作缺乏了解,工作疏忽、计算错误和误读所致。

关于基尼系数估计的再说明

《再》文提到计算基尼系数的随意性,表明作者对统计调查的理解还有一定的误区。在随机抽样下,统计调查的住户涵盖了各个阶层,其中不排除有极端值的情况,不管是收入的极端值或是资产的极端值,不管是极高的数据还是极低的数据,对于推断总体的计算和分析都有很大的影响,但也是很有帮助的。如果一个调查不存在极端值的情况,在推算总体的时候就不需要做极端值的处理,就不用“随意性”处理,不能说这样的分析是错误的,只能说明这个调查的覆盖面不够广,异质性不强,据此计算的数据不能够代表总体的水平。

此外,在计算基尼系数选取家庭还是个人的收入,不同学者对收入差距的理解不同,用于界定的方式自然存在差异,我们认为用家庭和个人的收入都有其合理性,不存在谁对谁错的说法,我们报告中也明确告知是用的家庭收入计算收入差距。在这一点上,刻意强调用哪种界定方式、哪种计算方法才正确,没有任何意义。

CHFS数据使用者,可能无法完全复制出中国家庭金融调查与研究中心2012年12月9日发布的《中国收入差距报告》中的基尼系数,主要有以下两个原因。

其一,为保护受访者隐私,在CHFS发布的数据中,对高收入和高财富家庭的数据进行了截尾处理。处理方法在CHFS的数据文档中有详细描述,相信严谨的学者在质疑前会仔细阅读CHFS的数据说明文档。

其二,在报告发布之后,我们邀请了美国科学院院士(社会科学类唯一华人院士)、著名统计学家、社会学家谢宇教授访问中国家庭金融调查中心,对CHFS的问卷设计、抽样设计、调查实施、质量控制以及数据清理进行了全面评估。谢宇教授根据我们项目的实际情况,提出了诸多建设性的建议和改进方法。根据谢宇教授的建议,我们对CHFS数据抽样权重进行了微调,进一步纠正了重点抽样带来的抽样偏差。

基于以上两个原因,CHFS数据使用者复制的基尼系数与CHFS在2012年12月9日发布的基尼系数存在微小偏差。但这并不妨碍我们得出2010年中国居民家庭收入基尼系数极可能远远超过0.5这一基本结论。2012年12月底,在对抽样权重进行调整之后,我们重新计算了基尼系数,并对CHFS主页上发布的《中国收入差距报告》进行了更新。权重调整后的计算结果与CHFS在2012年12月9日发布的结果基本一致,全国的基尼系数为0.61,城镇和农村的基尼系数分别为0.58和0.61。

关于收入分布的再说明

2012年6月出版的《中国家庭金融报告2012》完稿于2012年3月,在发布之前,我们对该报告进行了反复的校对,尽量避免错误的发生。但客观来讲,报告中存在个别计算失误也是难免的。对于可能出现的错误,我们向读者致以真诚的歉意,并欢迎来信指正,我们也在后续的报告中勘误说明。这也是我们公开数据的重要原因之一。《再》文引用的《中国家庭金融报告2012》中的家庭收入分布数据在计算总收入时漏算了家庭成员第二职业的收入。对此,我已在多个场合进行了更正,也在即将出版的《中国家庭金融调查报告2012(英文版)》中进行了更正。《再》文作者已经获得我们的原始数据,却选择不加核实,也对我们为此做出的更正不做了解,是不够严肃的。

在此,我们再次就这一数据进行说明,以免部分读者多次重复错误引用。根据CHFS数据计算的城镇居民家庭收入25%分位数应该为17,000元,而不是6,420元;农村居民家庭收入25%分位数为7,860元,而不是6,240元。

总的来讲,我们有充分理由相信,CHFS数据并不存在《再》文所说的低估低收入家庭收入的情况,更不存在质疑者多次提到的CHFS数据低估低收入家庭问题导致CHFS高估基尼系数的问题。根据2010年的贫困标准(家庭人均年收入低于1274元)计算,农村贫困家庭数量占全国家庭总数的6.9%,据此推算的贫困家庭户数约为2672万。而根据民政部公布的2010年各月全国县以上农村低保数据,当年低保覆盖农村家庭户数约在2500万户左右,两者十分接近。若按照2011年提高后的贫困标准计算(农村居民家庭人均纯收入2300元/年),家庭人均收入低于这一标准的农村居民家庭数约占家庭总数的11.2%,据此推算大约有4368万农村家庭低于这一标准,也就是说大约有1.69亿人口。这与中国科学院2012年3月完成的《2012中国可持续发展战略报告》中根据这一标准估算的中国农村贫困人口超过1.28亿具有可比性。

最后,我们通过计算可以发现低收入家庭的收入对基尼系数的影响并不大,恰恰是高收入家庭收入对基尼系数存在较大影响。

我们对于任何合理的质疑、批评和建议,始终持诚挚欢迎的态度,但如果仅仅因为采取了与官方调查不同的方法,得出了不同结论,就对科学的民间独立调查加以否定的话,那么官方数据将很难得到验证。这也无助于提高官方数据的公信力,只有当官方数据得到越来越多民间调查数据支持和验证,其公信力才会得到捍卫。我们也希望有更多的机构能够参与到独立调查的队伍中来,这样才能更加全面、多元地揭示中国家庭收入、消费、资产等情况,官方统计数据才能得到印证和补充。百家争鸣才能促进理论与实践的进步,才能提供更加准确的分析和研究成果。
 

(本文版权归道琼斯公司所有,未经许可不得翻译或转载。)

原文地址:http://cn.wsj.com/gb/20130221/OPN071222.asp

 

本次学术讨论的相关文献:

岳希明、李实:我们更应该相信谁的基尼系数?

甘犁:以公开科学的抽样调查揭示真实的中国

岳希明、李实:缺少说服力的回应——对西南财大住户调查项目公布的基尼系数再质疑

甘犁:关于中国家庭金融调查数据的再说明

 

(本文仅代表作者个人观点,责任编辑:詹鹏)

分享到: