AI的英语考试水平超过人类，语言测评行业加速拥抱AI_新浪财经

21世纪经济报道记者王峰北京报道大模型让人机对话迅速发展到新的高度，随之而来的问题是，AI时代来了，各行各业人员是否还需要具备外语能力?

近日，在第25届中国国际教育年会的“以人为本的人工智能技术在语言测评中的应用与创新，助力中国高校国际化发展”平行论坛上，与会专家探讨了AI时代下语言学习和测评的机遇与挑战。

值得注意的是，AI在语言测评中的成绩已经超过人类，但语言测评面对AI反而越来越开放，应用了更多AI功能。职场人士在AI加持下可以更轻松地驾驭外语，却有越来越多的人在参加语言学习和测评。

AI时代语言学习需求明确

AI技术发展迅猛，强烈冲击语言测评行业。

在论坛上，全国翻译专业资格考试（CATTI）项目管理中心主任江平介绍，2016年，CATTI引入了一款AI翻译机参加考试。江平在考试前预计AI翻译机会取得不错的成绩，“因为机器掌握庞大的语料库”。

但让江平没想到的是，AI翻译机最终在口译科目中得分87分，在笔译科目中得分91分，这不仅是当年考试两门科目的最高分，也是截至当时CATTI开展十几年来的最高分。

翻译资格证书是由人力资源和社会保障部、中国外文局联合颁发，是唯一纳入中国国家职业资格制度的语言类考试，被称为中国最具含金量的十大证书之一。二级翻译证书考试的通过率不超过10%。

既然考试已经考不住AI，随之而来的问题是，AI是否会取代翻译，掌握了AI工具的人们是否还需要外语能力？

论坛上介绍了一项关于国内各行业外语需求与测评的大型调研，面向超过10万名机关、企事业单位人事部门和专业技术人员开展。结果发现，90%的人社部门认为专业技术人员需要具备一定的外语能力，65%的被调研行业认为需要具备外语能力的人员；68.3%的被调查人员认为其所在单位的全部或部分岗位对从业人员的外语能力有较高或一般要求，超过三分之二的被调查人员认为在工作中有应用外语能力的机会；64.4%的单位要求员工具有听、说、读、写，甚至口笔译的能力，认为从业人员外语水平不重要或非常不重要的用人单位仅占19.8%，用人单位各岗位对外语能力无任何要求的仅占24.4%。

这项大型调研分别在2018年、2022年、2023年开展过三次。也就是说，调研的开展与AI技术的突飞猛进几乎同步，反映了社会对外语能力的需求其实相当明确。

需求不仅存在，甚至还在提升，这突出体现在参加语言测评的考生人数在增长。在国内，每年有数千万人次参加各种语言测评。其中，每年报名参加大学英语四、六级考试的人数就超过2000万人。国内每年参加托福、雅思等国外考试的也有几十万人。

近日，一年一度的CATTI考试落下帷幕。据官方消息，本次考试全国共报名近15万人次。而在去年，CATTI考试报名人数还只有8.3万人。截至2024年10月，CATTI考试累计报名约230万人次，已有近26万人次获得翻译资格证书。

在论坛上，上海交通大学外国语学院教授金艳介绍，语言测评正在朝着自动化方向迈出重要的步伐。自动评分、远程监考、人机对话、诊断反馈等技术日趋成熟，自动编写语料、命题和参数设计等也逐步成为现实。

目前，有些省份已经将大学英语四、六级口语考试改为机考，其形式为考生两人为一组，针对给出的主题进行对话。金艳认为，随着AI技术的落地，口语机考有条件采取人机对话的形式。

语言测评考试的准确、高效、客观，始终是各方关注的重点。培生PTE中国区客户关系负责人万昕表示，培生PTE已经引入AI评分机制，实现了对考生能力的自动评分，提供更快、公正且灵活的测试方法。2023年，培生PTE在全球提供了100多万次的测试。

警惕AI测评的伦理风险

AI驱动语言学习和测评发展，但也要警惕背后的伦理风险。

AI伦理风险首先体现在价值观导向方面。金艳认为，教育测试是一种价值导向行为，测试工作者需要以合乎价值观和道德准则的方式做出决策，但AI决策不是基于个人的价值观、信念或意识形态，AI也无法进行价值或意识形态评估。因此，要评估和预防自动编写语料中的意识形态和价值观导向风险，以及避免自动评分时对作答内容所体现的意识形态和价值观缺乏评判。

AI伦理风险其次体现在测试公平性方面。金艳认为，加密算法的公平性可能会受到训练集内在偏差的影响，进而对某些群体造成不公。此外，还需要警惕高科技作弊、抄袭、剽窃等问题，以及AI幻觉问题，防止AI提供虚假的信息，虚构文献，甚至生成危险、有害或违法的信息。

AI伦理风险还体现在数据和信息的可靠性和安全性方面。金艳指出，当试题、答题数据等被用于模型训练，接下来该如何保证考试数据的安全，以及试题设计和开发者的知识产权？

业内已经有专家指出，AI产品的训练库资料是否具有版权，AI能否成为拥有著作权的作者，以及能否通过著作权来保护AI产出的内容。不过，社会对这些法律、伦理问题尚未形成共识。

金艳介绍，目前国际语言测试协会正在修订ILTA道德准则（Code of Ethics）和实践指南（Guidelines for Good Practice），指导语言测试学者更深入探索AI技术应用场景，评估可能产生的各方面影响，加强对AI技术的评估和监管，实现人类认知与AI的协同发展。