陈沁:纯数据分析,美国民调到底准不准,拜登民调领先能保证胜选吗?

陈沁:纯数据分析,美国民调到底准不准,拜登民调领先能保证胜选吗?
2020年10月30日 12:47 界面新闻

原标题:陈沁:纯数据分析,美国民调到底准不准,拜登民调领先能保证胜选吗?

图片来源:视觉中国图片来源:视觉中国

文 | 陈沁 (数联铭品首席经济学家,毕业于复旦大学,曾任教于复旦大学经济学院)

四年前的美国大选中中,民调数据几乎都错误地预测,特朗普将败给民主党候选人希拉里;四年后的今天,主流民调依然预测,特朗普将无法胜选连任。于是现在事关大选结果预测,我们经常听到这样的声音:“虽然民调显示拜登领先,但是大家都知道,民调在2016年失败了啊!所以我们不能相信民调……“

但民调数据到底准不准呢?我们还应不应该信任民调?改进后的民调传达了哪些信号?

我们把2016年最后一周的民调平均值和选举结果拿出来,做一个比较。下图的横坐标是民调中民主党超过共和党的比例,纵坐标是大选结果中民主党超过共和党的比例。

可以看到,用民调来解释大选结果,拟合优度是0.9826,也就是说,选举结果各州差异的98.3%是可以用民调的各州差异来解释的。

拟合优度虽然高,但它只表示了“样本间差异的可解释性”,却没有给出各州的大选结果和民调的函数关系。

那么问题出在哪里呢?在这个截距上——这条线经过了(0,-3.76%)。

也就是说,即使民调是半对半,特朗普和希拉里完全一样,最终结果也要扣掉3.76%。因此,2016年大选时,民主党只有在保证4%的民调领先时,才能在大选中获胜。如果民调领先5%,那么最后可能只赢1.24%,就很危险;如果民调领先3%,那很可能就会在该州输掉。

这个截距来自很多地方,第一包括民调的样本是不是有足够的代表性,第二包括民调的未回答人群是不是有偏向性,第三包括了不同的支持者的投票率。2016年时,从民调到选举结果,这三点可能都有问题:第一,民调没有代表足够的人群;第二,民调中没有回复的人群中特朗普的支持者要比希拉里的支持者要高,他们被民调忽视了,或者说调整了,但是没有调整到位;第三则是特朗普的支持者投票热情要更高。

尽管这三个问题看起来都很严重,但他们在2016年也只能解释3.76%的截距。而目前人们不相信这个民调的理由,其实也就是对这个截距到底是多少不太有信心。如果说民调中领先多少都不能保证最终获胜,这个民调自然也就用不了了。

但是民调公司也不是吃白饭的,他们在这四年间也会调整调查方法。比如对某些特征的人群过度抽样,比如改进询问方法,比如fivethirtyeight的方法是根据历史数据直接给民调一个偏向性,然后把这个偏向性从民调里面扣除掉——相当于先回归出截距,再把截距扣掉。总之,所有的方法都是一个目的,要让民调和大选结果更接近,让截距趋向于0。

这么做有没有改进民调的结果呢?我们可以从2018年中期选举得到一些启发。2018年时,435个众议院席位改选,民主党共和党激烈斗争,各大民调公司又纷纷做了民调,而这次中期选举规模也不小,总票数只比2016年大选低14%,最后的结果和民调散点图如下所示:

拟合优度和2016年几乎一样,但截距有了显著变化——从2016年的3.76%,下降到了1.47%。原本需要在民调中保持4%的领先才能在获胜的选区,现在只要2%的优势即可。而且我们如果放大上图中间的一部分,只保留哪些民调差距在10%之内的选区,可以看到图中第二、第四象限如下图所示:

从上图可以看到,有95个选区民调差距在10%以内,分布在第二象限有8个选区,分布在第四象限只有1个选区。这反而说明民调民主党落后的地方,有8个选区翻蓝,而反过来民调民主党领先的地方,只有一个地方翻红。这里1.47%的截距,主要是来自第一象限和第三象限的点造成的,而这些点中是否有这个1.47%的截距,恰好也对选举结果没有影响。

从3.76,到1.47,民调对民主党仍然有偏向,但这个偏向已经减半了。而且从2018年中期选举的结果看,在民调差异10%的摇摆选区中,民调的结果反而更准确,且甚至还略微偏向了共和党一点。

因此,我们当然没有理由弃民调于不顾而转投其他玄学。别的不说,用玄学去解释大选50个州的结果、中期选举435个选区的结果,能有98.3%、98.4%的拟合优度吗?

截距的问题,还是交给截距去解决,截距到底是多少,可以通过历史的结果计算,推测。如果因为有了这个截距就把民调数字全部扔掉不用,那是舍本逐末了。

最后,按照目前的民调结果给出预测——按照2018年中期选举给出的-1.47%截距,拜登能够以334票对204票赢下大选,各州情况如下:

如果按照一个极端情况,目前的选举和民调差距和2016年一样大,把-3.76%的截距从民调中扣除,那么

佛罗里达、北卡罗莱纳、亚利桑那

三州会转投特朗普,此时拜登的领先程度会降低到只有20票,但仍然能赢得大选:
而剩下唯一能够左右选情的就只剩一州——宾夕法尼亚。该州选情在剩下的摇摆州中最为接近,且选举人票够多。那么宾夕法尼亚是否能够翻转呢?最近一周在宾夕法尼亚进行的各项民调显示如下:

除了InsiderAdvantage之外,其他的民调都显示了5以上的民主党领先优势(InsiderAdvantage本身也是一个很“有名”的民调,有兴趣的的话可以去搜索下他们以往的风评和预测结果)。因此,拜登在宾夕法尼亚州仍然保持了5%以上的领先,即使扣除截距,也还没到转投特朗普的地步。

那么,这个领先在大选前会不会消失呢?从以往数据看,非常难,但这是美国大选,而且是一次投票人数会是以往两倍、首次有大量选票通过邮递方式来寄送的选举,发生什么不可思议的事情,也是有可能的。

结论

首先,民调并非不可用,用民调来解释大选结果,拟合优度高达98.3%。4年前的民调之所以遭遇滑铁卢,主要是来自-3.76%的截距,它导致民主党领先不到3%的摇摆州最终都输掉了大选。

其次,导致非零截距的原因有很多,但民调方法的改进会逐渐消除这些截距。从2018年中期选举结果看,民调的截距下降到1.47%,且对摇摆选区的预测相当准确——95个民调差距在10%以内的选区,有86个选区都预测对了,剩下的9个还是偏向了共和党的预测错误。

再次,在一个比较大的截距假设下——假设民调质量仍然保持2016年的状态,那么拜登将以279对259票赢下大选;在一个比较小的截距假设下——假设民调质量与2018年类似,那么拜登将以334对204票获得压倒性胜利。

最后,特朗普是否可能会获胜?还有一线希望。

首先,民调的质量必须和2016年一样毫无改进。当然,我不太相信这种事情会发生,民调公司也是要赚钱的,没必要为了一点意识形态跟自己过不去。

其次,最后一周内,特朗普必须逆转宾夕法尼亚的选情,将拜登的领先优势降低到2%甚至更低。历史上该州从未在一周内对这两人有过3%上下的选情变化,且宾夕法尼亚是拜登的故乡。除了2016年以外,候选人在出生州还是会有一些优势的,一般的黑新闻很难对选情造成太大伤害——得特别黑的黑新闻才行。

如果以上两个条件都满足,特朗普才有可能获胜。

(文章仅代表作者观点。责编邮箱:yanguihua@jiemian.com)

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片