AI帮忙填高考志愿靠谱吗？实测百度、腾讯、阿里、智谱等9款产品|文心|阿里|高考志愿_新浪科技

21世纪经济报道记者王俊王峰实习生刘欣、朱奕潼北京报道

高考志愿填报还在火热进行中。今年，AI大模型志愿填报成为亮点。

志愿填报是高考后的关键环节，像山东、贵州等省份实施新高考后需要填写 96个志愿，提高了信息获取的要求和难度。

AI具有推理优势，近年来已经有不少公司在推出AI填报志愿。尤其是随着大模型的崛起，不少大模型产品也相继入局。

但是，这些产品性能如何，给出的志愿推荐是否具有参考性，误差有多大？

21世纪经济报道记者测评了夸克、文心一言、百度AI志愿助手、腾讯元宝、天工AI、通义千问、智谱清言、靠谱AI、作业帮9款产品，结果发现均存在一定问题，尤其是文心一言、腾讯元宝、天工AI、通义千问、智谱清言等大模型产品，误差率高。

测评发现问题包括：

1、上述提及的大模型产品推荐误差率高。志愿推荐的“冲、稳、保”三个档次准确率低，存在“冲”的学校历年分数线低于“保”底学校。通义千问、智谱清言甚至出现给黑龙江省内排名4000左右的学生推荐冲刺清华、北大的建议，给山东排名64000名的学生推荐冲刺北京航空航天大学的建议。

2、底层数据缺失，即时数据更新不及时，一些推荐学校在该省份并无招生计划。

3、个性化推荐不够智能，选择志愿目标城市为北京，但文心一言、智谱清言等产品中出现多个学校并非北京高校。

根据艾媒咨询数据，2023年中国高考志愿填报市场付费规模为9.5亿元，近九成高考生愿意选择高考志愿填报服务，市场规模持续增加。AI产品想要吃下市场红利，目前的产品能力仍有较大不足。

大模型产品误差率过大排名4千名考生推荐冲击清北

此次测评的产品分别为：夸克、百度文心一言、百度AI志愿助手、腾讯元宝、天工AI、通义千问、智谱清言、靠谱AI、作业帮。上述测评产品主要是在应用商店、网页、小程序等搜索AI志愿，弹出的排名靠前的产品。

为了客观、准确反应AI产品志愿填报的能力与精准度，21世纪经济报道记者分别用不同省份、高分段与中分段进行了测评，并且进行了二轮交叉检验。

测评首先设计了两个测评人设：

1）黑龙江考生，628分，排名，选科为物理、化学、生物，目标城市北京，想选择人工智能相关领域专业。

2）山东考生，考分558分，排名约64000，对城市与学校没有相关要求，专业覆盖人工智能、航空航天。

在一款产品的“智能填报”页面上，输入高考总分、选科等基本信息，系统会推荐“冲、稳、保”三种不同风险类型的志愿和录取概率预测。

进一步按照院校优先、专业优先、职业优先等筛选条件来缩小选择范围。

高分段实际测评情况：

测评的9款AI志愿填报产品中，主要分为两种类型：一种为在线“志愿一键填报”，主要应用是大数据技术，考生输入相关信息，系统根据各院校专业往年的录取分数、位次进行匹配，自动生成填报建议，包括按照“冲”“稳”“保”给出不同层次的推荐结果，包括各专业最近几年的录取最低分、最低位次、招生计划，以及预估的录取概率等。夸克、作业帮主要是这一类型。

另外一种则为大模型产品，用户与大模型对话，得到更充分的填报建议，也有志愿表格推荐等形式，文心一言、腾讯元宝、通义千问、天工AI等属于该类型。靠谱AI两种形式皆有。

记者根据历年分数线、排名、招生计划，对上述9款产品所推荐的结果进行判断，整体来看，AI大模型给出的推荐结果靠谱程度低于传统AI的志愿填报系统。

以黑龙江高分段考生为例，测评结果显示，百度的文心一言，它推荐的冲刺类型学校为上海交通大学和中国科学院大学，上海交通大学是上海的学校，其不符合测评考生的目标城市北京，并且，根据2024年中国科学院大学的本科招生分省分专业计划表中，中国科学院大学没有黑龙江招生计划。推荐的“稳”学校为北航、北邮和华科往年录取学生排名大概在1000、2000以内，而测评考生排名4千名左右，“稳”和“保”难度较大。

通义千问和智谱清言则将清华和北大作为测评考生的冲刺学校，作为排名4千多名的考生，这两所学校冲刺的可能性极低，误差较大。

夸克、靠谱AI和作业帮这四款产品也存在一定误差，比如夸克推荐保底的学校北京师范大学，历年在黑龙江的录取排名大概在三千名，也并非完全可以“保”的学校。不过整体来看，传统AI志愿填报产品误差率小于大模型产品。

再来看中分段的推荐结果，大模型产品误差仍较大。

文心一言推荐结果不稳定，用同样的考生条件多次提问，给出的答案大有不同，甚至会出现同样的学校专业推荐出现在不同档次的填报中的情况。

同时，文心一言、腾讯元宝、天工AI、通义千问给出的志愿填报推荐参考价值不高，对于排名64000名的考生却推荐要求排名在5000名及以内的学校，出现了985院校作为保底志愿填报进行推荐的情况，比如文心一言和智谱清言推荐排名64000名的考生冲刺北京航空航天大学，通义千问则在“保”的推荐中出现了北京航空航天大学。

大模型产品往往给出的推荐建议没有以往名次与分数线提供参考，而是与提问中的专业等关键词更加贴近，这也与大模型的属性有关。

AI志愿填报仍有较大不足

在互动性方面， AI大模型产品的互动性更强，不仅局限于简单的一问一答模式，还会根据用户的指令智能调节后续问题的深度和广度，比如在高考志愿填报的背景下，它们一般会就模型推荐的填报志愿学校、专业的具体情况和就业前景等提供进一步的咨询服务，文心一言、腾讯元宝、天工AI、通义千问和智谱清言都会在回复下面提示，“你可以继续问我：上海交通大学近几年的分数线是多少呢，北京有哪些好大学等问题”。夸克、靠谱AI和作业帮等传统AI的志愿填报系统互动性不够，与产品定位重点不同有关。

测评的志愿填报产品中，大部分没有广告与后续付费要求。夸克、文心一言、AI志愿助手、通义千问、智谱测评中未发现广告与后续付费情况。天工AI需要分享才能查看志愿详情，靠谱AI则会限制每个用户免费使用的次数，同时，若想进一步获得更多消息也需要付费升级会员。

2014年以来，全国共有29个省份分五批启动了高考改革。新高考模式下，报志愿的难度提升，高考志愿填报成了一门热门生意，“钱景”广阔。

AI志愿填报近年来“水涨船高”，大模型的快速迭代，性能提升，成为今年志愿填报市场一股新增量。

大模型产品互动性更强，人机对话形式降低了志愿填报产品的使用门槛，可以用聊天的方式获取信息和建议。并且测评显示，互动过程中，不少产品也能抓取更有针对性的资料给到用户。

但是，大模型产品对数据有强依赖性，底层数据的缺失或是测评中大模型产品志愿推荐不靠谱的主因之一。

中国教育科学研究院研究员储朝晖在此前接受21世纪经济报道采访时表示，目前考生填报志愿存在几个难点，第一个是高校的招生简章当中没有准确表述招生诉求，第二个是高校公开的数据的质量、标准不一样，比如不同学校的同一个专业，内涵是有差异的。

此外，最关键的是，有些院校专业并未及时公布最近的录取分数线、录取位次等数据。

一位高考志愿填报产品负责人告诉21世纪经济报道，基础数据的准确和全面，是他们每年花最多精力来打造的事情，要动用上百人的人工标注团队来处理数据。

缺乏对院校专业权威的评估体系和评估数据，大模型志愿填报精确性难以提升。从测评结果来看，想要真正在志愿填报的红海中立足，大模型还有一段距离要走。