经济诺奖得主评今年诺奖:随机对照实验方法有局限

经济诺奖得主评今年诺奖:随机对照实验方法有局限
2019年10月17日 16:55 澎湃新闻

  原标题:2015年经济诺奖得主评今年诺奖:随机对照实验方法有局限

  【写在前面】:

  2019年诺贝尔经济学奖揭晓,获奖者为阿比吉特·班纳吉(Abhijit Banerjee)、埃斯特·迪弗洛(Esther Duflo)和迈克尔·克雷默(Michael Kremer),以表彰他们“在减轻全球贫困方面的实验性做法”。三位诺奖得主率先在经济学中使用“随机对照实验”,但该种实验方法在经济学家中掀起争议。

  本文改编自《有关随机对照实验的访谈》(Experimental Conversations: Perspectives on Randomized Trials in Development Economics)一书的一章,该书由麻省理工学院出版社于2016年出版。该书收集了在发展经济学中使用随机评估和实地实验对学术界和政策领袖的访谈。原文是英文访谈稿,采访人为蒂姆·奥格登(Timothy N. Ogden),受访者是2015年诺贝尔经济学奖得主、美国普林斯顿大学微观经济学家安格斯·迪顿(Angus Deaton),由张亚声(美国加州大学洛杉矶分校经济学系博士生)翻译,王勇(清华大学经济学研究所副所长,清华大学民生经济研究院执行副院长)整理成介绍性短文,张维迎(北京大学国家发展研究院教授)修改定稿。

  一、随机对照实验是样本太小的局部性研究

  许多观察性研究都使用全国代表性的数据,如超过2000万个人口普查的数据。而随机对照实验(Randomised controlled trials,RCT)是样本太小的局部性研究,这是其最大问题所在。

  我认为现在的发展经济学家,有点像五十年代的做回归分析的经济学家。在上个世纪50、60年代,经济学家们刚刚开始借助回归分析进行计量研究。在他们眼中,回归分析是一个“神奇工具”(magic tool),可以揭示几乎所有事情。他们将对各种事物进行多变量回归,并以一种因果关系框架内对其进行解释,尽管按照今天的标准,这完全不合理。后来,经济学家和其他学者了解到,这样的计量研究存在种种问题。在今天的计量经济学课程中,已经不再强调回归分析这种魔法性,而会着重强调回归分析存在的种种毛病。

  在现在的发展经济学家们看来,他们现在也有一个“神奇工具”——随机对照实验(RCT),但对这个工具的弊端还不甚了解。当然其他任何估计(estimation)方法也都有其优点和缺点。但我认为RCT的弊端很大,很少能达到人们日益对其高涨的预期。人们之所以选择RCT,是因为他们厌倦了关于外生性、工具变量和样本选取(sample selection)等等的争论。但是,所有这些问题其实在RCT中都以不同的形式重新出现。因此,我没有看到RCT带来研究的质量有什么提升,坏的研究仍然层出不穷。

  好的实验研究在很大程度上取决于细节。在30到40年前,实验经济学刚刚开始发展时,学者们一开始并没有注重细节,做了不少无效的实验,得到了很多教训。对此,尽管很多事情也已经被遗忘了,但仍然有很多学者记着这些教训,比如像查克·曼斯基(Chuck Manski)和吉姆·赫克曼(Jim Heckman)等人。

  在曼斯基的最新著作(《Public Policy in an Uncertain World》, 2013, Harvard University Press)中,对RCT的实验方法中细节问题进行了颇为仔细的研究,特别棒的是,他指出了RCT中的一些隐含假设。尽管喜欢使用RCT的学者们对此争辩说,进行RCT研究并不需要假设。但实际上,当人们去推广使用根据RCT研究得出结论或建议,就需要考虑这些隐含假设。

  特别是,当把局部实验得出结论进行推广使用时,人们需要考虑内部和外部有效性问题((internal and external validity))。如果你去阅读70年代和80年代当时的研究,就会发现人们常常思考如何从一个实验中获得结果以及如何将这个结果应用于其他地方。在当今的发展经济学文献中,我几乎看不到这样的思考。也许我错过了一些东西,但是当我读J-PAL实验室[1]网页的时候,我认为他们就是在表示那些估算值几乎可以在任何地方使用它们。这真是怪异的做法了。因为,因果关系是具有局部性的,即使在某地进行的RCT研究发现了因果关系,也并不意味着这种因果关系会在其他地方发挥作用,即使在别的地方也存在这种因果关系,也不意味着效果的大小是一样。

  二、RCT方法无法确保因果关系的建立,不应夸大该方法的优点

  其实,RCT这一方法在发展经济学之外,如美国的社会政策实验等领域已经运用很长时间了。并且直到今天仍然还在继续使用。其中有不少高质量的研究。并且这些高质量的研究都对RCT的优点和局限性有着认真的思考和清醒的认识。但可惜的是,在发展经济学领域,人们把这一方法神化了。这像是对魔法的信仰,让RCT具有它们不具备的属性。

  例如,不少发展经济学认为 RCT可以确保因果关系的建立。但这种观点是荒谬的。首先,RCT研究中会存在标准误差(standard errors),并且在很多情况下很难正确地处理标准误差。即使我们发现因果关系,我们也需要论述因果关系可以在其他某个地方以相同的方式起作用,更不用说这种因果关系的一般性了。

  其次,RCT应该自觉想法设法保证实验组和对照组之间的平衡。人们经常性地误认为RCT具有很高的信度(reliability)或者无偏性(unbiasedness)。但这是对统计学的错误理解。信度与精度(precision)有关。而RCT本身就是RCT,它对精度没有任何作用。但是,不少经济学的文献认为RCT可以提高信度的主张。其实,在无偏估计量中,我们获得不了任何关于信度的信息。

  我们从统计学中学到的第一件事就是,无偏性可能是人们想要的,但无偏并不像接近事实那么重要。因此,如果类似字典序偏好那样(lexicographic preference)偏爱RCT方法,把其置于所有的研究方法前面,看成是“黄金标准”论据,这其实就像我们要将无偏性推崇至其他所有统计学性质之上。而这正是统计学第一课告诉我们不应该做的事情。

  在其他领域的RCT文献中,比如医学,人们经常使用这种黄金标准论据,来说明我们只需要考虑随机对照实验的估计值,或至少将其优先考虑。而在发展经济学中,我们经常看到一些随机对照实验,每个实验组只有少量观察结果,并且存在巨大的标准误差。但RCT的推崇者似乎觉得这比那些使用了1亿个数据但存在潜在偏倚性的研究更可取。这根本没有道理。每个研究都必须被单独地考虑和分析。RCT很好,但是它们只是众多工具中用来发现事物的技术之一。

  我认为,目前文献对RCT的好处夸大太多。这不仅会造成对该方法的应用不当,而且建立一种错误的信念,认为这种方法可以做一些无法做到的事情。这是用魔法的思维代替了统计学。

  三、 RCT方法同样存在大样本统计分析的问题

  在我看来,过去这四五十年来,经济学家们对进行大样本数据分析已经非常厌倦了,因为需要对样本选择(sample selection)、识别(identification)、偏差(bias)和统计有效性(validity)等统计分析问题进行非常繁杂的处理。这种厌倦导致了RCT方法在发展经济学领域得到了人们的追捧,以致于产生了RCT运动。

  但上述统计分析问题在RCT研究中也是无法避免的;实际上,无论使用哪种方法,都必须以一种或另一种方式面对它们。尽管如此,还是有不少人认为,RCT研究可以让政策制定者可以更好的理解和接受研究结论,因为RCT研究直观展示出实验组和对照组的平均值的差别。

  但这只是他们的希望。Kremer和Miguel(2004)借助RCT研究了如何如何帮助肯尼亚贫困儿童驱虫(预防和治疗蛔虫)的研究。他们发现向学生发放驱虫药物的效果是最好的,而对学生进行卫生预防教育几乎没什么效果。后来,Miguel和Bobonis(2006)在印度重复(replicate)了该研究,得出了类似的结论。这两项研究让一家名为“Evidence Action“的慈善机构设立“为世界儿童驱虫项目“(Deworm the World)来将驱虫行动进一步扩大到世界范围。但是,另一家慈善机构,Cochrane Collaborations,调查了这一项目的效果,发布了一份长达150页的报告《 Cochrane Review》,报告指出,该项目没有得到和Kremer和Miguel的研究一致(consistent)或明显的效果。我并不是Cochrane Collaborations这家慈善机构的粉丝,也不热衷于元分析(meta-analysis),对于驱虫这件事也没有特别的见解,我只是想借这件事情说明,RCT并不能消除争议。

  现在我不知道谁是对的,这也不是我在这里想谈论的。但是,当你考虑了一会儿以后,可能就会意识到也许这些研究和报告里面就不存在对的。在一个地方起作用的东西可能在另一地方不起作用,特别是对于诸如驱虫这样复杂的事情而言,它取决于环境和卫生条件,还取决于孩子是否穿鞋,传播程度以及所有类似的东西。也许Cochrane Collaborations Review试图在寻找一些根本不存在的东西。我也了解到Michael和Ted正在对Cochrane Collaborations的分析提出质疑。

  但这正是回到了我们开始这类研究之前的状况。不同的研究给出了不同的结果,而没有人能够真正解决这些差异。我认为这是一个非常好的例子,它表明随着我们获得更多结果,我们依然不会得到一个清晰的解决方案,因为即使我们正确并精准地完成了这些实验,有时结果也会遍地开花。RCT与大样本统计分析之间的差异不仅仅是无偏性和有偏性的问题!

  在我看来,RCT倡导者们曾以为他们将解决一个我认为无法解决的问题。没有万能的子弹(magic bullet)。这就是事实。应该让这些RCT倡导者来解释一下为什么他们不更多地谈论60、70年代所做的研究,这应该很有趣。让他们解释一下为什么那些研究并没有改变世界,以及为什么它们让学者中失去了动力。

  四、大规模调查数据具有广泛有用的信息,是伟大思想的来源

  我非常喜欢US Financial Diaries(一个关于美国家庭金融数据的研究项目)的工作,并且从中学到了很多东西。另外,我目前正在处理的美国人口普查数据(American Community Survey)。这些数据集中有2000万个观测值,涉及成百上千个问题。对我而言,它们比针对某一主题的一系列随机实验更为有用,因为它们具有许多广泛有用的信息。我可以自己思考它们的代表性和随机性,我也没有被那种除非是RCT否则就没价值的疯狂想法蒙蔽双眼。

  当然,获得这些大规模的调查数据需要花费不少钱,但它们的成本在很大程度上取决于提出的问题以及询问方式。如果1000个人都想添加一个问题,而如果你放开让人们去做,它将完全失去控制。另外,还存在其他形式的成本,如官僚系统担任低效率,以及在美国,这些调查(尤其是通过电话进行的调查)很难让人们通电话超过20分钟。因此,进行获取这些大规模的数据普查成本确实存在真实的约束。不过,在印度或肯尼亚这样的国家,进行数据普查所需要的成本会大幅下降,特别是美元在这些国家的真实汇率(按照购买力平价,ppp)往往高于名义汇率,按照真实汇率换算成美元以后,成本其实会更低。

  尽管处理搜集这些数据面临这样或那样的限制,但这就是智慧的开始。做科学研究非常困难。如果有一台神奇机器(magic machine),那么我们都会变得容易得多。但并没有。对US Financial Diaries这一类大规模数据进行深入的研究非常重要。过去100年中,社会科学中的大多数伟大的思想都是来自这类研究。

  五、基于RCT研究进行的政策调整让人感到不安,需要建立RCT的可移植性理论

  我认为政策调整是一件非常复杂的事情,通常很慢,涉及很多的政治因素。前几天,我读了戴维·格林伯格(David Greenberg)和马克·史罗德(Mark Shroder)的一本书,社会实验概要(The Digest of Social Experiments),书中写到,他们研究的数百份1999年的社会实验,有75%的实验是富人对穷人所做的。从那以后,相比较于发达国家,人们在发展中国家进行了更多的实验,因此百分比只会变得更糟。我对此感觉不是很舒服。特别是,如果RCT背后隐含着的政策变化理论是家长制(paternalism),那我将非常反对。

  我读过Judith Gueron 与 Howard Rolston合写的一本书,《为可靠性证据而奋战》(Fighting for Reliable Evidence)。Judith Gueron是MDRC(一个美国慈善研究机构)的总裁,这本书讨论了哪些研究可以成为制定政策的可靠依据。许多经济学家都曾在早期参与其中,但此后的参与人数却很少,但MDRC,Abt和Mathematica等机构从那时起就继续进行这些实验性研究,为了联邦政府,州政府以及加拿大的政府做这些实验。因此,我对它们在政策领域的运作方式感到好奇。

  我不认为这些实验的结果会对学术知识产生太大影响,但我认为那些实验能够解决不同政治观点之间的争执。当一个新的政府产生后,他们会说:“所有原来的这些政策都应该废除”,或者,“如果我们让人们去上班,然后再给他们福利,这将使他们自己赚钱并为政府节约成本”之类的。在美国,此类争论必须由国会预算办公室(Congressional Budget Office,CBO)来承担。CBO必须估计那些拟议的政策调整产生的财务预测是否靠谱。当里根当政时,他们根本不热衷于进行任何实验,但是当CBO不同意他们的估计时,他们便成为了实验的支持者,因为他们相信实验将表明他们是对的。这样以来,这些实验主要研究政策调整对各州和联邦政府预算的影响。他们承担着大量的工作,而且他们通常不关心穷人的福祉,更关心政府预算。RCT对此很有用,因为它提供了平均成本。而在这种情况下,平均成本就是你想要了解的。它解决了争端。

  但是,在不了解其机制的情况下,该平均值通常无法在其他地方使用。MDRC从一开始就与寻找机制的问题作斗争,但他们从未能解决这个问题。他们认为,通过深入研究细节,他们可以找到可以推广或传播的机制,而他们从未设法做到这一点。使用RCT无法做到这一点。你必须将它们与理论和观测的数据结合起来,但这样你也就回到了一开始的起点。

  因此,在基于RCT进行政策调整之前,需要先建立RCT的可移植性(transportability)的理论,该理论需要回答RCT在这里起作用,为何也能在那里起作用?通常,那些研究RCT的人只是假设这些数字能够适用,而很少讨论如何将这些研究结果从一个地方移植到另一个地方。

  六、RCT运动会衰落,不会为消除贫困提供长期解决方案

  经济学是一个非常开放的职业。与许多以老年人为主导的学术领域相比,那些有好主意的年轻人受到了很多关注。尽管肯定会有咨询公司为特定目的进行RCT,例如事后基准评估,但我认为[RCT运动]可能会以30年前的衰落相同的方式衰落。随着对RCT存在的问题的更好理解,学术届对它的兴趣将消退。我不否认RCT在经济学家工具箱中的地位将比20年前要更高,并且与其他方法论一样,我们将对RCT在何种情况下适用有更清晰和成熟的认知。工具当然越多越好,但我不认为其中一种工具是魔法,或者说它是我们唯一需要的工具。人们还将继续进行RCT以及其他研究。

  我认为RCT不会提供任何长期解决方案。我们当然不会以这种方式消除世界贫困。我们应该更多地考虑政治而不是微观细节研究。在这一点上,我和达隆·阿西莫格鲁(Daron Acemoglu)和吉姆·罗宾逊(Jim Robinson)观点基本相同,处在同一条船上。正如我在书中所说的那样,援助正在使情况变得更糟,而不是更好。有可能的情况是,某时某地我们发现了一个奇妙的援助系统,这个系统能告诉我们应该如何发放援助。这可能会使当地情况变得更好,可以挽救生命,可以使人们接受教育,但不会消除世界贫困,因为这与政治有关,与金钱无关。知识当然可以提供帮助,但同样的,这是一个关于知识可移植性的问题。如何将其从一个地方带到另一个地方,必须有一些理论,这需要理论、归纳和某种结构模型。它们不一定是跨期动态范式(intertemporal dynamic programs),尽管该范式在当今被认为是发展经济学中的主要结构。

  我认为,在政治方面在摆脱贫困还有很多事情要做。例如,不支持横征暴敛的独裁统治。至于个体研究人员参与其中,也有其必要性,但是它必须是局部性的。由MIT或NYU的人员组成团队在某个地方进行实验,其结果主要在当地比较适用,不应该将其交给世界银行以便在其他地方实施。麻省理工学院或纽约大学或其他任何地方的团队实际上要做的是帮助人们理解那些机制。我总是举一个例子,法国和美国人一起发现了艾滋病是一种通过性传播的疾病,并了解了它是如何起作用的。这对于全世界,尤其是在东非和疫情非常严重的地方,是非常有用的信息。我们需要做的也是类似的事情。当学生来找我,问我:“我应该如何帮助世界穷人,我应该去孟加拉国,我应该去非洲吗?”我说:“不,你应该去华盛顿。当然,这不是对美国穷人,而是对全世界的穷人。

  (原标题:2015年诺贝尔经济学奖得主安格斯·迪顿对随机对照实验方法的批评)

责任编辑:郭明煜

诺奖

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 10-21 致远互联 688369 --
  • 10-21 昊海生科 688366 --
  • 10-18 赛诺医疗 688108 6.99
  • 10-17 麒盛科技 603610 44.66
  • 10-17 左江科技 300799 21.48
  • 股市直播

    • 图文直播间
    • 视频直播间