来源:华尔街见闻
o1模型为何在推理时使用中文或其他语言来思考尚不得而知,但有专家猜测,原因可能是模型在训练时使用了中文或其他语言的数据标注,也有可能是模型倾向于自行选择它们认为最能有效实现其目标的语言,或者出现了幻觉。
媒体报道,在OpenAI 发布其首个“推理”AI模型o1不久后,有用户注意到一种奇怪的现象:即使用户是用英语提问,这一模型有时会在回答问题时突然“转而用”中文、波斯语或其他语言“思考”。
例如,当被问及“单词‘strawberry’中有多少个‘R’?”时,o1会开始其“推理”过程,通过一系列推理步骤得出答案。如果问题是用英语写的o1的最终回答会是英语,但在得出结论之前,它可能会在某些步骤中使用其他语言。
一位Reddit用户表示,“o1在中途随机地开始用中文思考。” 另一位用户在X发文询问:“为什么o1会随机开始用中文思考?整段对话(超过5条信息)都没有使用中文。”
![](http://n.sinaimg.cn/spider20250115/698/w1262h1036/20250115/8a8a-9a4e1cbc87bbb0c5a5d0511aa6bed033.png)
OpenAI尚未对o1的这种奇怪行为作出解释,也没有正式承认这一现象。AI专家对此也没有明确答案,但他们提出了一些猜测。
使用中文数据标注引起?
包括 Hugging Face 的首席执行官 Clément Delangue等人表示,像o1这样的推理模型接受了大量包含中文字符的数据训练。谷歌DeepMind的研究员Ted Xiao声称,包括OpenAI在内的一些公司使用中国的第三方数据标注服务,而o1转向中文可能是“推理过程中受到中文语言影响”的一个例子。
Ted Xiao在X上写道:
“OpenAI和Anthropic等实验室利用[第三方]数据标注服务,为科学、数学和编程领域的高水平推理数据提供支持,而许多数据提供商都位于中国。”
在AI训练领域,标注(Labels,也称为标签或注解)在训练过程中帮助模型理解和解释数据。例如,用于训练图像识别模型的标注可能包括为对象周围添加标记,或为图像中的每个人、地点或物体提供描述。
研究表明,带有偏见的标注可能会导致带有偏见的模型。例如,普通标注员更可能将非标准英语(如美国黑人英语,AAVE)标记为“不健康”(toxic)语言,这导致基于这些标注训练的AI毒性检测器更倾向于认为AAVE 是“不健康”的。
不过,也有一些专家并不认同“中文数据标注”的猜测。他们指出,o1同样可能在解决问题时切换到印地语、泰语或其他语言。
AI只想使用最高效的语言来思考?
另一种观点认为,o1和其他推理模型可能只是使用了它们认为最能有效实现其目标的语言(或出现了幻觉)。
阿尔伯塔大学的助理教授、AI 研究员Matthew Guzdial在接受TechCrunch采访时说,“模型并不知道语言是什么,也不知道语言之间有区别。对它来说,这些只是文本而已。”
实际上,模型并不直接处理单词,而是处理“标记”(tokens)。标记可以是单词(例如“fantastic”),也可以是音节(例如“fan”、“tas”和“tic”),甚至是单词中的单个字符(例如“f”、“a”、“n”、“t”、“a”、“s”、“t”、“i”、“c”)。
像标注一样,标记也可能引入偏见。例如,许多从单词到标记的转换器假设句子中的空格表示一个新单词的开始,而实际上并非所有语言都使用空格来分隔单词。
Hugging Face的软件工程师Tiezhen Wang赞同这一观点,认为推理模型的语言不一致性可能源于模型在训练期间与特定语言建立的某些关联。
“通过接纳每一种语言的细微差别,我们扩展了模型的世界观,使模型能够全面学习人类知识。例如,我喜欢用中文做数学,因为每个数字只有一个音节,这让计算更简洁高效。但在讨论诸如‘无意识偏见’之类的话题时,我会自动切换到英语,因为我最初就是通过英语学习和吸收这些概念的。”
AI模型是概率机器,通过大量示例的训练学习模式,并据此作出预测。然而,非盈利组织艾伦人工智能研究所的研究科学家Luca Soldaini警告说,“我们无法确定模型内部的运行逻辑。对已经部署的AI系统进行这类观察,由于其高度不透明性,是无法支持任何结论的。这也说明了为什么在构建AI系统时保持透明性至关重要。”
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
责任编辑:丁文武
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](https://tvax2.sinaimg.cn/crop.0.0.1080.1080.50/008FRZO9ly8hu9eynpq96j30u00u0ade.jpg)
![](https://tvax1.sinaimg.cn/crop.0.0.1080.1080.50/008Et9EJly8hqoxjt1jvij30u00u0gnk.jpg)
![[doge] [doge]](https://n.sinaimg.cn/commnet/2018new_doge02_org.png)
![[doge] [doge]](https://n.sinaimg.cn/commnet/2018new_doge02_org.png)
![](https://tvax1.sinaimg.cn/crop.0.0.996.996.50/008cmRV4ly8gwzji4d7vmj30ro0romyc.jpg)
![](https://tvax3.sinaimg.cn/crop.0.0.1076.1076.50/008F4L3Qly8hs1bwptylkj30tw0twn00.jpg)
![](https://tvax1.sinaimg.cn/crop.0.0.1080.1080.50/007tKMGXly8hsegknw7mpj30u00u03zc.jpg)
![](https://tvax4.sinaimg.cn/crop.0.0.525.525.50/81da283fly8hr1s76isi1j20el0elmxn.jpg)
APP专享直播
热门推荐
61岁乘客在飞机上昏迷抢救无效死亡 航司回应 收起61岁乘客在飞机上昏迷抢救无效死亡 航司回应
- 2025年02月16日
- 14:00
- APP专享
- 扒圈小记
81,613
法国小伙带622张日军侵华照片抵达北京,希望捐赠给中国
- 2025年02月16日
- 13:38
- APP专享
- 扒圈小记
21,226
人民热评:重庆燃气事件,不要每次都以道歉收场
- 2025年02月16日
- 13:58
- APP专享
- 北京时间
6,095
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 06:08:46
高位人气股梦网科技(sz002123)午后触及跌停,上演“天地板”行情,成交超80亿元。该股此前走出8连板,今早以涨停开盘。今天很多个股出现了天地板,市场热点在退潮,市场人气在降温,内资那帮渣男终于把市场人气干下去了,这点跟去年924行情如出一撤! -
趋势起航今天 06:07:49
长盛轴承(sz300718)继续发力! -
徐小明今天 06:05:47
【盘中直播】慢牛才会满足上述的好股市三个条件 -
北京红竹今天 06:05:18
在交易的时候 特别小的细节不用在意 明确方向 就行 -
北京红竹今天 06:04:22
恒生离防守线有点远,上移也是有可能的,不管怎么样,这里不追高, 大级别没问题,就是有望本周出现一次洗盘 清楚方向就行 -
趋势领涨今天 06:04:01
VIP个股再一次跟踪涨幅一只,本直播室VIP个股,都是一只一只操作,撤离一只,会添加一只,不撤离不添加!投资是一件长期的事情,选择一个尽心的老师和团队,会少走很多弯路。还没上车的朋友,请及时查阅!查看链接〉〉〉〉〉【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
东方红陈晨今天 06:03:58
【民营企业座谈会召开 任正非、马云、王兴兴等出席】财联社2月17日电,中共中央总书记、国家主席、中央军委主席习近平17日上午在京出席民营企业座谈会。在听取民营企业负责人代表发言后,习近平发表了重要讲话。李强、丁薛祥出席座谈会,王沪宁主持。据央视新闻视频报道画面,参加座谈会的民营企业家包括:宁德时代(sz300750)董事长曾毓群、阿里巴巴创始人马云、飞鹤乳业董事长冷友斌、正泰集团董事长南存辉、宇树科技创始人王兴兴、新希望(sz000876)董事长刘永好、华为创始人任正非、比亚迪(sz002594)董事长王传福、韦尔股份(sh603501)董事长虞仁荣、小米董事长雷军、奇安信(sh688561)董事长齐向东,等等。 (澎湃新闻) -
趋势起航今天 06:03:47
市场午后震荡回落,三大指数集体翻绿,三大通信运营商走高,中国联通(sh600050)一度涨停,DeepSeek概念股回落,青云科技(sh688316)跌超10%,沪深京三市下跌个股超2300只,成交达1.64万亿 -
趋势起航今天 06:02:46
浙数文化(sh600633)! -
冯矿伟今天 06:01:53
还有一小时,今天量也大