王小鲁：关于对研究报告的误读和错误解释

http://www.sina.com.cn 2010年09月06日 02:12 第一财经日报

　　提到社会学调查方法，不能不提到我国老一辈社会学家费孝通和他的著作《江村经济》。这本书是他对自己姐姐居住村庄的乡亲邻里进行调查的成果，成为一部解剖中国乡村经济有代表性、影响深远的著作。没有听说谁批评他的调查“样本太小”，“没有采用随机抽样方法”，因此“不科学”。这首先是因为信息的真实性和所反映问题的代表性。而这些并不是所有的大样本随机抽样调查都能做到的。国际抽样调查权威Kish在他的著作中，也没有不适当地强调抽样方法的“科学性”，反而把它看做“‘自己创造的艺术’和它的科学性的结合”(Kish：《抽样调查》，中文版1997)。

　　在我们的调查中，为进一步降低敏感度，我们采取了匿名调查的方式，提供了信息保密和仅用于研究目的的承诺；在问卷设计上采取了先问消费、后问收入，先问分项、后问合计，不追问收入具体来源等调查方法。调查前，对各地调查人员进行了培训。调查后，对收到的问卷进行了严格的质量和逻辑检验，剔除了相当数量不合格问卷。所有这些措施，都是为了保证数据的真实性。这使我们得到的调查数据避免了严重的系统性偏差。

　　由于在特定条件下采取了这种非常规调查方法，我们深知虽然得到的数据比较可信，但样本分布并不代表城镇居民的总体分布，不能用来做总体推断。我们所采用的恩格尔系数法，就是在这种情况下所找到的一个解决问题的方法。由于基础数据的可信性和样本在不同地区、不同收入层次、不同职业身份的居民群体间分布的广泛性，我们能够用它获取收入水平与恩格尔系数以及其他参数间的真实关系，并基于这种关系来对一定居民群体的收入水平进行推算。

　　这一方法得到的结果，并不是一个总体推断，而是在统计局分组样本的基础上，利用统计局数据中可信度较高的变量(一个主要变量是恩格尔系数)来推算其真实收入水平，以校正其原来失真的数据。这一方法和总体推断方法得到的结果非常不同。这在报告中有详细的数据比较和说明。而施、王两位一直强调我们是在做“总体推断”，说“不是直接推断也是间接推断”，是很不客观的。他们所批评的“没有采用随机抽样方法”，也并不构成我们这项研究的缺点，反而是在有限条件下能找到的一个验证统计数据失真的有效解决方法。

　　当然也要说明，这项研究的目的，是对统计数据的偏差进行检验并作出近似推算，而不是要代替常规统计。作为一个民间研究机构，我们不可能拥有像国家统计局那样庞大的统计机构和遍布全国的调查队伍，不可能进行能与之相比的大规模调查。但我们充分相信，所得到的高收入群体收入水平的推算结果，远比现有的统计数据更真实，也能够为改善统计数据提供一个参考。

　　3 关于对研究报告的误读和错误解释

　　施、王两文，除了对我们的调查样本量和抽样方法进行批评外，还提出了另外几个理由说明研究报告的推算结果不可靠。但这几个理由都有商榷的必要。

　　1.王有捐文章说，我们的调查方法是通过“亲戚再找亲戚，朋友再找朋友”的“滚雪球”方法，不适合用来“推断总体”。

　　前面已经说得很清楚，我们并没有用自己的样本来“推断总体”。同时，我们的调查也根本不是王有捐先生所说的“滚雪球”方法。所有的调查都是由经过培训的各地调查员直接访问其熟悉的人群所产生，并没有经过任何中转。如果认真读过报告全文，应该不会产生这样武断的误解。

　　2.王有捐先生质疑我们的调查方法：“试想，这些不愿意向统计局调查员透露自己实际收入的高收入人群会仅因为调查员是熟人就如实相告？”显然是在暗示我们的调查方法可能也低估了高收入人群的收入水平。然而他却以此为理由证明我们的“估算结果有过高之嫌”，这显然是自相矛盾的。

　　王有捐文章还说，我们在问卷中询问住户是否愿意透露真实收入信息，是具有“明显的倾向性”、“诱导性”，却没有说出倾向何在。而且问卷中这个问题只作为参考信息，并不改变任何原始收入数据和推算数据。以此来说明我们的推算过高，是说不通的。

　　3.王有捐说，研究报告在使用外部数据时“不严谨”，把居民储蓄算高了。

　　其一，是说报告没有区分居民存款和公款私存。实际上从实行存款实名制后，公款私存的情况少多了。仍然存在的公款私存，一般无非是化“大公”为“小公”，把公款变成某些单位人员小团体的消费资金，实际上就是灰色收入的一个来源。那么这还能算是“公款”吗？

　　其二，是说报告没有区分居民购房和单位购房。研究报告中计算的仅限于房地产开发商的住宅销售部分。即便是单位出钱为个人购买住宅，难道不应计入个人收入吗？

　　其三，是说报告没有区分股市的居民投资、企业投资和国外投资。这更不客观。研究报告中并没有把股市、债市投资全部算成居民个人投资，而是保守地假定只有1/3来自居民储蓄。这个估计也许不准确，但至少有高估和低估两种可能，而断定“高估”不知根据何在？

　　其四，说“房价收入比在中国的合理界限为3年的提法也有待于进一步探讨”。但报告中根本没有这样的提法，而是说“根据国外经验，通常商品住宅价格是居民家庭年收入的3~5倍，是可承受的价格”。上述说法不知来自何处？

　　4.施、王两文都说恩格尔系数与收入密切相关，但也受其他因素影响，因此用恩格尔系数法推算收入水平“存在明显问题”。事实上我们的研究通过模型分析法控制了影响恩格尔系数的多种因素，包括地区、城市规模(间接反映物价水平)、家庭平均教育水平、家庭规模、就业面等差异，在计算收入水平与恩格尔系数关系时已经排除了其他这些因素的影响。这再次说明两位商榷者或者没有认真读过报告全文，或者有选择地忽略掉了报告的某些部分。

　　5.施发启提出：“如果采用报告中的计算结果，2008年居民可支配收入占GDP的比重将达到73.9%”，太高了，因此证明计算结果不合理。但施发启文章的计算实际上是将居民收入上调，但假定GDP不变，才会得到上述比例。这个假定本身就不合理。报告中已作了说明，如果居民收入有大量遗漏，GDP核算不可能没有遗漏。例如，有的企业将内部人员的灰色收入或对外部的行贿等支出，以虚假发票报销等方式计入成本，低报了企业的实际增值，这些遗漏当然也不可能进入GDP核算。

　　6.施发启文章还批评说，我们的调查数据是来自受访者记忆，“没有统计台账”，“调查方法不规范”。但就是在调查规范、有统计台账的情况下，统计局的高收入居民收入数据发生了严重的系统性偏差。我们的调查把最主要的工作放在保证数据的真实性方面。虽然舍弃了统计台账的方法，凭记忆容易产生数据误差，但这种误差是随机的、双向的，既可能偏低，也可能偏高。在平均的意义上，它们会在很大程度上互相抵消。而系统性偏差是同方向的，不可能互相抵消。因此可以有把握地说，这种随机误差会远小于现行收入统计数据的系统性误差。

　　综上述，两位商榷者提出的论据，有的是对研究报告的误读或错误解释，有的是论据与结论南辕北辙。给人的感觉似乎是下结论在先，找根据在后，失去了学术上应有的客观性。

　　还有一点需要讨论，两位在共同署名的第三篇文章中声明，他们同笔者讨论的是居民收入数据问题，而不是灰色收入问题。而在我看来，这两者是难以分开的。虽然在统计上搞清灰色收入是很困难的事情，但鉴于目前灰色收入泛滥的情况，收入统计避开灰色收入就很难不失实。更重要的是，不澄清这些事实，躺在虚假数据上作分析，就无法合理应对收入分配状况恶化的挑战。

　　两位的商榷文章当然也提出了一些有价值的意见。例如，施发启指出，使用年平均人数计算比用年末人数计算更合理(尽管对结果没有重大影响)，也指出研究报告中虽然模型的解释变量系数通过了显著性检验，但模型拟合度偏低。王有捐认为，研究报告中用外部相关数据对收入数据进行检验的方法值得借鉴。这些意见是合理的，有益于这些问题的进一步研究。两位对于改善统计数据的表态，也使人感到我们之间存在共同的基础，希望保持交流，把收入分配状况搞清楚。

　　(作者系中国经济体制改革基金会国民经济研究所副所长)

欢迎发表评论我要评论