![](http://n.sinaimg.cn/spider20250129/143/w660h283/20250129/119e-1e854fe0ce7a41161db45278d009f392.jpg)
新智元报道
编辑:peter东 乔杨
【新智元导读】基于一段文本提问时,人类和大模型会基于截然不同的思维模式给出问题。大模型喜欢那些需要详细解释才能回答的问题,而人类倾向于提出更直接、基于事实的问题。
如果要你负责企业培训,培训结束需要出一份考试题目,那如今你可以选择将培训材料交给大模型,由大模型来负责出题并给出参考答案。
不过由大模型给出的考题,和人类出的题目究竟有没有差别,以及有哪些差别?
最近,加州大学伯克利分校、沙特阿拉伯阿卜杜拉国王科技城(KACST)和华盛顿大学的研究人员发表了一项研究,首次系统评价了大模型提问的能力,并指出大模型和人类的提问模式存在显著差异。
![](http://n.sinaimg.cn/spider20250129/48/w660h188/20250129/8aea-22fe6ac05a0939740a5846d743b90713.jpg)
论文地址:https://arxiv.org/pdf/2501.03491
评价提问的四个维度
这项研究基于维基百科的文本,将文本拆分为86万个段落,之后通过亚马逊Mechanical Turk众包平台,由人类参与者为每个段落撰写对应的题目及答案,人类给出的文本将作为评估大模型的基准。
![图1:大模型出题并评价的模式](http://n.sinaimg.cn/spider20250129/110/w660h250/20250129/a28d-834caf842a16963adfd7fa06ee634d8f.jpg)
之后,研究人员将这些段落交给主流的大模型,包括闭源的GPT-4o和开源的LLaMA-3.1-70b-Instruct,由大模型根据段落内容及上下文提问,之后对问题的评价也由大模型进行。
对问题的评价共包含6个指标,分为2组。前三个标准评估问题本身,而第二组标准负责评估反映问题质量的潜在答案。首先介绍与答案无关的标准。
1. 问题类型
对于人类来说,选择问哪个问题具有主观性。这项研究定义了十种问题类型,例如验证/确认问题,具体事实与数据问题及身份和归属问题等。
2. 问题长度
主要测量的是组成问题的单词数量。除了直接比较人类和大模型所生成的问题长度外,该研究还考察了问题长度与问题类型之间的关系。
3. 上下文覆盖率
上下文通常包括多个句子,问题可能只针对一个句子中的一个事实,或者需要跨越多个句子进行推理。这项标准旨在反映问题覆盖文本内容的长度,研究还分析了在生成过程中,大模型是否会有倾向性地关注上下文中的哪些特定部分。
4. 可回答程度
一个问题的关键质量标准是它是否可以在特定知识的基础上被精确地回答。具体来说,生成的提问应在提供上下文的情况下可回答,而非是模棱两可的。
5. 罕见性
大模型是在互联网上广泛可用的常识上进行训练。因此,即使没有明确提供上下文,大模型仍然可以进行提问,因此需要评估问题相对于其预训练数据的罕见程度,从而判断大模型究竟是有的放矢地提问,还是问给出一些泛泛而谈的问题。
6. 答案所需的长度
除了问题长度外,所需答案的长度是衡量提问模式的一个更有效的指标。然而,由于生成模型的回答往往冗长且包含很多无用细节,所以首先要明确提示模型提供最短的文本作为回答,并指导模型在一定的字数限制内生成答案。此外,研究者还会对这些答案进行额外评估,以确定是否可以用更少的词达到相同的质量评级。
大模型vs.人类,问题差异在哪
研究结果显示,首先:在问题类型上,与人类相比,大模型更倾向于提出需要描述性、更长答案的问题,大约 44%的人工智能生成问题是这一类。
这可能是因为大模型在训练过程中接触到了大量描述性文本。而人类倾向于提出更直接、基于事实的问题,例如核查具体的事实和数字,或者人物、地点、事件等。
而在问题长度上,,大模型生成的问题长度更长,而且不同模型对问题长度的偏好有所不同,例如GPT-4o 生成的描述性问题更长。而人类生成的问题更短,且不同类型的问题间长度差异较大。
![图2:大模型提问的问题长度,前两行是人类参与者的问题长度](http://n.sinaimg.cn/spider20250129/60/w590h270/20250129/9220-71ca7e278662c520957388b9a0bd0ad6.jpg)
而在上下文覆盖上,人类产生的问题能更全面地覆盖上下文信息,包括句子级别和词语级别。这意味着相比人类,大模型的提问难以更全面地覆盖所有文本,往往会揪着一个细节去提问。
![图3:大模型和人类提出问题对应的上下文在句子和单词层面的覆盖比](http://n.sinaimg.cn/spider20250129/2/w612h190/20250129/575a-973c3de5758eaa8f0e8f50c04956e886.jpg)
更值得关注的是,大模型更关注文本的前部和后部,而忽略中间部分,这一点之前的研究也有提及。
![图4,大模型提问对不同位置的段落的覆盖情况](http://n.sinaimg.cn/spider20250129/468/w660h608/20250129/0385-f8e03088a6b4c3328ba639acc156e5ff.jpg)
对于提出的问题是否可以被解答,需要根据上下文信息分别判断。如果提问所依据的文本包含了背景介绍,此时大模型生成的问题通常有清晰的答案。而如果文本中缺少上下文信息,缺乏常识的大模型生成的问题的可回答性会显著下降,甚至有些问题无法回答。
![图5,对比文本包含上下文以及不包含上下文时,大模型提出的问题时具有可回答度的评分分布](http://n.sinaimg.cn/spider20250129/140/w616h324/20250129/f45a-b1a914d7751fd98c9f97673834104598.jpg)
类似的,由于生成模型的特性,大模型生成的问题通常需要更长的答案、包含更多细节。同时大模型生成的答案可压缩性较差:尽管可以压缩,但仍然需要比人类更长的答案。
![图6:大模型和人类提出问题对应的回答的长度](http://n.sinaimg.cn/spider20250129/110/w628h282/20250129/0e45-18cd0f5a4529ec4905cb4c82ee6cb94e.jpg)
研究AI提问的意义
这项研究中,交给AI提问的只是一个段落,而非具有更丰富上下文的文章。未来的研究,需要考察的是大模型面对更长的文本,甚至是多篇长文本组成的书籍时会提出怎样的问题,并考察不同阅读难度、不同学科背景的文本。
如今AI生成的提问在商业产品中变得越来越普遍。例如,亚马逊的购物助手会建议与产品相关的问题,而 搜索引擎Perplexity和X的聊天机器人(19.460, -0.36, -1.82%)Grok则使用后续问题来帮助用户深入了解主题。
由于AI问题具有于区别于人类提问者的独特模式,我们就可以据此测试RAG系统,或识别AI系统何时在编造事实。
对大模型提问模式的了解,还可以帮助用户编写更好的提示词,无论是希望AI生成更类人的问题,还是要求有特定特征的问题。
随着人们越来越依赖大模型,本文最初描述的基于大模型出考试题,将会在未来变得越来越普遍,进而潜移默化地影响人类学生的思考模式,也许会让我们的下一代变得啰啰嗦嗦,或者看文章时只关注特定细节,尤其是头尾部的(考核中的重点)。
不过大模型的提问模式也是可以微调的,知道了大模型提问和人类的差异,我们就可以有针对性地进行改变。
参考资料:
https://arxiv.org/pdf/2501.03491
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
APP专享直播
热门推荐
痛心!李梦豪壮烈牺牲,年仅26岁 收起痛心!李梦豪壮烈牺牲,年仅26岁
- 2025年02月14日
- 08:20
- APP专享
- 扒圈小记
24,626
事发上海浦东机场 海关截获世界上毒性最强活体毒蛙!
- 2025年02月14日
- 02:27
- APP专享
- 扒圈小记
2,375
特朗普又来:台湾抢走了美国的芯片生意,得拿回来
- 2025年02月14日
- 01:56
- APP专享
- 北京时间
1,338
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势起航今天 14:57:02
【微信搜索接入DeepSeek-R1 目前处于灰度测试阶段】微信搜一搜目前正在灰度测试“AI搜索”功能,部分用户进入微信搜索页面后,可点击由DeepSeek-R1提供的“深度思考”选项。 (界面) -
趋势起航今天 14:27:02
【印尼总统宣布2025年将启动15个大型下游化项目 】印度尼西亚总统、大印尼行动党总主席普拉博沃15日在该党成立17周年庆祝活动上宣布,政府将于今年年内启动15个总价值数十亿美元的大型下游化项目。普拉博沃在讲话中表示,下游化作为内阁核心政策之一,旨在通过优化海洋等自然资源的开发利用,提高利用这些资源生产的商品的附加值,从而为民众创造更多就业机会,推动经济公平与民生福祉。 -
趋势起航今天 13:57:01
【U20国足5-2击败吉尔吉斯斯坦队 两连胜提前小组出线】2025年U20男足亚洲杯A组第二轮结束争夺,东道主中国U20国家队5-2击败吉尔吉斯斯坦U20国家队,取得两连胜的中国队提前一轮从A组出线。2月18日19:30,中国队将与同样两战全胜的澳大利亚队直接对话,争夺A组头名。 -
趋势起航今天 13:27:01
【巴总统阿巴斯:坚决反对任何驱逐巴勒斯坦人的计划】巴勒斯坦总统阿巴斯在埃塞俄比亚出席第38届非盟峰会时发表讲话称,巴勒斯坦坚决反对任何驱逐巴勒斯坦人的计划,无论是在加沙地带、约旦河西岸还是东耶路撒冷。阿巴斯强调,任何试图强迫巴勒斯坦人民离开家园的方案,都是对国际法和联合国决议的公然违反,巴勒斯坦人民不会接受被驱逐,也不会放弃对自己土地的合法权利。巴勒斯坦的未来必须建立在人民坚守家园的基础上,而不是在流亡和流离失所中。 -
趋势起航今天 12:57:00
【美国15家发行人的投资级债券发行量下降至176亿美元】截至2月14日的一周内,新债券发行量降至176亿美元,较前一周30笔交易中的485亿美元下降64%。本月迄今为止,新发行债券供应量达到661亿美元,而一个月前同期为1026亿美元;年初至今的发行量为2677亿美元,而去年同期为2897亿美元。最大交易:礼来公司(Eli Lilly & Co)发行65亿美元,加拿大贝尔公司(BCE Inc)发行22.5亿美元。 -
趋势起航今天 12:26:59
【琼州海峡大雾影响减弱 海口“三港”复运】海口市交通运输和港航管理局发布通告:因琼州海峡大雾影响减弱,海口新海港、秀英港和铁路南港于2025年2月15日18时25分恢复运输。复运后,港口将优先疏运停航前已在港内待渡的绿通货车和小客车,预计需要1个小时恢复正常秩序,请出岛司机旅客避开疏运高峰延后到港。停运时段船票延后有效。 -
趋势起航今天 11:56:58
【黎巴嫩总统谴责机场抗议者袭击联黎部队】黎巴嫩总统奥恩谴责联黎部队副司令车队经过贝鲁特国际机场时遭到袭击,并强调“袭击者将被追究责任。”奥恩谴责14日晚在贝鲁特国际机场路发生的抗议活动,并警告不要有任何危及国家安全和稳定的企图。他密切关注当天晚上发生的纵火和暴乱事态发展。作为回应,他向黎巴嫩军队和安全部队发出指示,要求结束这些骚乱,清理所有道路,并清除街道上的障碍物。 -
趋势起航今天 11:26:57
【《哪吒2》让义乌旧货翻红热售】随着《哪吒2》电影的持续走热,在浙江义乌,几年前商户自主设计的哪吒头造型发箍、玩具火尖枪等再次热销,企业不得不提前开工,经营户也加大了备货量。在浙江义乌一家小饰品生产企业,工人们正加紧制作哪吒头造型的发箍。企业负责人说,这款产品已经销售了多年,因为《哪吒2》电影的火爆,再次成为热销款。据介绍,最近在义乌国际商贸城中热销的饰品、小商品、玩具都是五六年前开发出的,并不是《哪吒2》的衍生品,能再次销售火爆,经营户也很意外,大家正加大备货量,满足市场需求。 (央视新闻) -
趋势起航今天 10:56:57
【欧洲央行Panetta称在降息方面没有必要犹豫】欧洲央行理事会成员Fabio Panetta表示,鉴于2%的价格目标在望且通胀风险偏于下行,欧洲央行在降息方面无须犹豫。“货币政策继续对经济活动和通胀施加下行压力,在通胀接近目标、内需持续疲弱的情况下,这种影响越来越没有必要。”他周六在都灵发表讲话时说道,“在货币宽松方面不那么果断,可能导致中期内通胀过低。” -
趋势起航今天 10:26:56
【中央气象台2月15日18时继续发布大雾黄色预警】中央气象台2月15日18时继续发布大雾黄色预警:预计,2月15日夜间至16日上午,琼州海峡将有能见度不足1公里的大雾。此外,浙江中西部、江西中北部、广西东部、广东雷州半岛等地的部分地区有大雾,局地有能见度低于200米的强浓雾。