985博士耗时4年“打假”:领域内“开山之作”是瞎编的?

985博士耗时4年“打假”:领域内“开山之作”是瞎编的?
2024年06月28日 20:34 媒体滚动

“真相只有一个”,这是陈路最爱的动漫《名侦探柯南》中的一句标志性台词。上百集的番剧,陈路刷过不止一遍,连微信头像都换成了主人公“新一”。他是个不那么典型的“二次元”,酷爱日本动漫,但性格安静、内向,骨子里有点“理想主义”。

2022年9月,还在中国人民大学信息学院读博二的陈路在知乎上讲了个故事,充满戏剧性——他研究了4年的一篇领域内“开山”级论文竟然是“假”的。

起初,这篇帖子并未引起多少关注,直到陈路的复现报告被ICASSP2023接收。一大批网友涌入这片原本无人问津的评论区,竖起大拇指。原帖还被一些微博大V、知名公众号转载。至此,这个颇具荒诞色彩的“打假”故事才被更多人了解:

一篇源自世界顶尖名校麻省理工学院(MIT)的领域内“开山之作”被质疑造假。而举起这把长矛的人,正是名不见经传的陈路——一位自称“资质平庸”的二次元“土博”。

“该不会是假的吧”

当质疑的念头第一次出现在脑海,陈路甚至有些不自信。那是2020年秋天的一个深夜,读博3个月的陈路丧气地躺在床上,望着天花板。硕士毕业一年后,他放弃了一份国字头的“铁饭碗”和马上到手的北京户口,破釜沉舟般地回到人大继续读博。

由于和硕士阶段是同一位指导老师,陈路很自然地捡起了那时未完成的项目。2018年6月,研一即将结束,陈路的导师让他去研究一个名为“语音向量”的前沿领域。该领域的“开山之作”于2017年问世,第一作者是来自MIT的Yu-An Chung,后者曾是台湾大学知名教授李宏毅的学生。

MIT的“开山之作”

由于作者出身顶级名校,且其文章中的实验效果极佳,陈路在接手该任务之初,并未对实验的真实性和权威性有过怀疑。毕竟,那时的他才接触AI领域不久,是个资历不足的“生瓜蛋子”。

最开始的一年,陈路像极了滚石上山的西西弗斯。“周而复始,陷入困局”,他在回忆贴中如此形容道。“那个时候主要是想复现Yu-An Chung的论文,也缺乏经验,就把所有的精力都投入实验中,每天就是闷头做实验,今天改改这儿,明天调调那儿。”陈路说。

他将每周的实验结果都汇总成报告,整整齐齐排列在文件夹。可等到研究生快毕业了,实验仍然没有任何效果。当时,陈路的两位博士师兄都做出了“十分了得”的成果,连尚未入学的硕士师弟也是“携paper进组”。陈路夹在中间,“比上不足,比下也不足”。

他实在想不明白,为什么这个实验就是复现不出来,感觉好似面前横着一堵墙。见陈路每天忙忙碌碌却没有进展,连导师都质疑他,“是不是心思不在上面”。对此,陈路深感歉疚。他答应导师,工作后仍会继续这项研究。

陈路和女朋友都很喜欢“二次元”文化。在女友心目中,陈路是那种比较理想主义、富有冒险精神的人。“当时,她认为我应该去一些大公司,做一些更有挑战性的事情。”陈路回忆道。但他最后还是退缩了。为稳妥起见,他接下了一份国字头的体制内工作。为此女朋友有些失望——“她觉得我应该去争取那些成为‘英雄’的机会,那样我会更高兴”。

进入单位后,陈路被现实上了一课。他发现,之前对方承诺的很多东西都无法兑现。身处非核心业务岗位,陈路被置于一种“身心俱疲,赚不到钱,发展又很受限”的尴尬境地。不出一个月,他就向单位递交了辞职申请,逃离这个“围城”。同时丢掉的,还有即将进入流程的北京户口和珍贵的“应届生身份”。

但陈路那时并没有多想。他只知道,有些选项必须采用排除法。

从单位离职后,陈路进入一家校友建立的创业公司,度过了一段自由快乐的职场时光。但冥冥之中,他总是不甘心。后来,陈路得知硕士阶段的室友正在申请博士,于是便抱着背水一战的心态和他一起申请了博士。出乎意料的是,他收到了好几位导师抛来的橄榄枝。最终,陈路选择回到人大,回到曾经的硕导身边。因为他知道,有件事情一直在等他画上句号。

2020年夏天,陈路重返校园。彼时,对于两年前没能复现的那篇“开山之作”,陈路摩拳擦掌,下定决心要搞出个结果。开学后,陈路把自己关在实验室,又闷头研究了3个月。为此,他甚至自费购买了一台实验设备。

中国人民大学,2020年秋。受访者供图

还是没有效果。陈路的信念趋于崩塌,他整晚整晚睡不着觉。如果说硕士阶段是因为经验不足、不够专注做不出来,现在又全身心投入3个多月,却依然不见起色,到底怎么了?

“像我的同学们,哪怕他们是做一个新领域,快的话也就两三个月就可以把实验做出来,甚至论文都写好了。而我,前前后后整了一年半。”陈路深夜独自躺在床上,百思不得其解,“就算别人比我聪明4倍,我也付出了4倍的努力,却连最基本的实验都做不出来。为什么?”

突然,一个念头不受控制地冒了出来:

“那篇文章该不会是假的吧?”

关于假的论证

第一作者世界顶尖名校毕业、出身著名教授实验室,论文被奉为领域内“开山之作”,甚至荣获Interspeech2020的“Best Student Paper Award”……怎么看,这些都是可信的强大背书。但除这些“title”之外,周路实在找不出其他能够验证其真实性的有力证据。“打假”,成了唯一的选项。

很快,陈路就想好了验证思路。“验证实验有没有造假,思路实际上非常简单,甚至没有任何技术含量。”他不好意思地挠挠头。

相比利用语音生成词向量,在AI领域还有一种相对成熟的词向量产生途径,叫做“文本词向量”。陈路怀疑,这篇论文提供的“语音向量”方法根本不成立,作者是用“文本向量”做的数据。

他对《中国科学报》讲述了自己的验证思路。

首先,在语音中存在同音异义词。例如“ate”和“eight”这两个单词,在发音上非常相近。对于论文作者所提出的模型而言,输入一致,输出结果就必定一致。因此,两个同音异义词的输出结果也一定会非常相近。相反,文本的相似性则会非常低。陈路取了一些同音异义词向量组,对其做了相似性概算,发现和用文本向量得出的结果几乎一模一样。

“这也能解释他的实验效果为什么那么好了,就是用文本做的。”

此外,陈路还对文章中语料的词表构成做了核查。“语音语料在预处理过程中相较文本语料多了一个音频切分过程,这个过程并不完美,使得最后得出的词汇构成发生变化,不像文本那般一一对应,这意味着最后得出的词汇数是有损的。”

陈路发现,文中的词表似乎并不符合语音处理的一般逻辑。于是,他开始尝试用文本作为语料,辅助一些特定处理规则,验证会不会得到与文中相同的词汇数。“最后我还真找到了他是怎么处理的。”陈路用这种文本处理方法得到的词数,竟然与作者发布的数量完全相同!

当然,陈路也联系过作者。事实上,他在2018年初次接手该复现工作时,就邮件联系过Yu-An Chung。当时,陈路抱着虚心请教的态度,向作者列出了自己在实验中遇到的种种问题。Yu-An Chung回复邮件很及时,对陈路进行了指导。两人有来有往,甚是友好。

做过相似性和词汇数比对后,陈路出于稳妥考虑,还切换了一个“小号”,用一个外国人的假名字给Yu-An Chung发去了邮件,希望他能够提供代码作为参考。意外的是,Yu-An Chung竟爽快地发来了代码。陈路抱着最后一丝希望,重新用作者提供的代码,严格按照作者的实验步骤,却依然无法实现文章中的效果。

事已至此,陈路基本在心里定了案——原文绝对有问题。但迫于博士毕业的压力,陈路无法继续全力投入这项“打假”工作,他必须做出其他更漂亮的成果,先让自己顺利毕业。

接下来的一年多时间,陈路便将精力全部投入在新课题上。直到2022年下半年,才得空重新回归“打假”。他将完整的复现过程整理成报告,这时身边也开始出现一些劝阻的声音。

同学劝陈路,这种工作耗时耗神,又不具备什么技术创新点,无论对做学术还是找工作而言,都“不好用”。

但陈路不想草草了事。在这件事情上,他耗费了整整4年。读研之初,他满怀希望,对女友许下承诺:“硕士毕业前我要把语音向量搞出来,然后去找个算法方面的工作!”他看起来像位即将出征的骑士,身边有着最崇拜自己的小公主。“那时,我打心眼里认为这项研究是‘伟大且富有价值’的。”

等他真正拿到“结果”,已是4年后。而所谓的“结果”,也并不是想象中那般堂皇、闪耀,充满气概。

这是陈路最难捱的4年,也是实现自我蜕变的4年。他发现,在很多研究中,特别在AI这种疯狂进击的前沿领域,很多人早已不在意一项工作是否做得扎实、做得没有漏洞,只在乎它有多“漂亮”,跑得有多快。

他对标准产生了怀疑。“做科研有时候越fancy越好。而我其实更像一个工程师,做工程无所谓fancy与否,一个小漏洞都能决定其是否成功。”

为了给自己的4年画上一个完整的句号,陈路果断将自己的复现报告公布在了arXiv预印本网站上。公布前,陈路再一次给第一作者Yu-An Chung及通讯作者发去了邮件,询问能否解释一下自己的复现结果。“我想再给他一个机会。”但发出的邮件却石沉大海。

反常的沉默在陈路的意料之中,这进一步印证了他的判断。

意外之喜

报告出现在预印本网站后,有很多来自全世界各地的研究人员对陈路表示感谢。他们和陈路一样,都是苦苦复现原论文中的实验却没有结果的人。陈路的报告让一些人恍然大悟,避免在这个也许根本不成立的研究方向上,投入更大的“沉没成本”。

在预印本网站收获正向反馈后,陈路决定投稿。投出前,陈路和导师做了全面的讨论,“多次论证我是否会误伤对方,但最后讨论的结果是‘不会’。”出于关心,导师也曾劝陈路:“以后还要在一个圈子里混,这种事情要慎重。”

可陈路铁了心要投。为了给自己一个说法,也为曾陪伴自己许久、最终遗憾分开的女友。“我心里下定决心,不管能不能投中,至少我要投十个会议,不给自己留遗憾。”

2023年2月,陈路惊喜地收到了ICASSP2023的接收通知。这篇论文需要做poster报告,地点在希腊。但由于距离太远,陈路没去成。

ICASSP2023会议

“我印象比较深刻的是最后ICASSP的评委主席也给了意见。他说这篇报告尽管在学术上没有提供什么比较创新的想法,但它是一项非常有价值的工作,能够帮助反思我们之前取得的一些结果。”陈路说。

他将投稿结果更新在知乎原帖的开头,帖子瞬间爆了。热度最高的留言是这样说的:

“我个人非常appreciate这样的工作,这种发现可以让很多人避免进坑,不觉得你浪费了四年。我感觉你这几年的失败让你有这个结论,远比搞出两三个成功的算法对学术界更有意义和影响力……”

事实上,陈路的这项工作的确为他带来了意外之喜。帖子被更多人看到后,有位来自微软的资深研究员向他抛来了橄榄枝,为他提供了一份含金量很高的实习;博士毕业前不久,一家新兴AI公司的负责人也找到陈路,称对他所做的工作非常欣赏,并提供了一份漂亮的offer。

微软亚洲研究院。受访者供图

在整个过程中,还出现过一个宿命般的小插曲。2023年6月,陈路的文章被ICASSP2023接收后,曾收到过一封来自台湾的邮件。

对方自称是台湾大学李宏毅教授实验室的一名学生。他向陈路透露,他们实验室有好几位同学都曾尝试复现过Yu-An Chung的那篇论文研究过程,皆一无所获,甚至还有一人因此差点毕不了业。陈路的文章发表后,实验室有同学将他的文章放入meeting的排程中,李宏毅本人还为此写下“这篇太劲爆了!一定要有人来讲一下”的批注。同学讲解完毕后,李宏毅还激动地表示他曾经也复现失败,有很多人因此受害等。

“您的文章让我们实验室为之震撼,我们很佩服您有这样的勇气与决心通过完整实验将整件事情公诸于世。”对方在邮件中写道。

陈路回复:“我现在感觉,这篇文章还是有意义的。”

没错。因为,真相比一切都重要。

(文中陈路为化名)

参考链接:

arXiv链接:https://arxiv.org/abs/2209.10791

知乎来源:https://zhuanlan.zhihu.com/p/568280879?utm_psn=1775837834060181504

李宏毅
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片