《科创板日报》3月28日讯(记者 朱凌)近日,两家具有硬核实力的大模型创业企业月之暗面、阶跃星辰的应用“Kimi”与“跃问”火出圈了。《科创板日报》记者对这两位AI“当红”应用选手进行了一场能力评测。
▌长文本理解
据介绍,Kimi、跃问都在长文本处理上有优势。因此,>《科创板日报》记者首先上传了一篇约7万字符的论坛速记,要求Kimi和跃问根据速记概括各位发言人的观点,并提取各位发言人的金句。
Kimi未按要求对各位发言人的观点进行概括,仅提取出发言人的简介和金句,并对论坛进行了简单的总体性概括。
跃问按要求完成了任务,质量较高,还识别出了圆桌环节,并对圆桌环节进行了单独的概括。
接下来,《科创板日报》记者上传了一本近9万字符的小说《9号的工作》,请Kimi和跃问写读后感。
Kimi和跃问都很快写了出来,它们都对小说内容进行了概括。比起跃问,Kimi有更多的感想与思考,基本符合读后感的要求。而跃问感想部分偏少,更像是对小说的介绍。
然后,《科创板日报》记者随机找了家最近发布年报的公司,请Kimi和跃问概括年报。
Kimi回复,其无法直接访问文件或查看图片内容,无法提供年报的具体概括。
跃问从网上找到了财经网站基于该公司业绩快报的资讯,进行了概括,但在概括中称数据和信息来自年报。
记者换了一个问法,请Kimi和跃问解读年报。
Kimi在上交所官网找到了该公司年报摘要、业绩快报等公告,但未找到年报全文,解读也一般。
而跃问找到的资料仍来自于财经网站基于业绩快报的资讯,但在概括的开头称“年报显示”,结尾写着“数据和信息基于业绩快报”,自相矛盾。解读内容基本就是对业绩的概括,缺少解读性语句。
《科创板日报》记者把该公司年报全文链接提供给Kimi和跃问,再次要求Kimi和跃问解读年报。
由于年报全文超20万字,即使开启新对话,Kimi仍无法完成该任务。
跃问顺利完成了解读,但解读泛泛而谈。
▌数学计算能力
紧接着,记者要求它们计算该公司2021年-2023年营收复合增长率。
Kimi在网上找到了相关数据,并计算出了结果。
跃问未进行网络搜索,因此无法进行计算,仅给出了计算公式。
《科创板日报》记者上传了另一家公司的年报,请Kimi和跃问以财联社风格写一篇1500字以内的业绩稿。
由超出字数限制,Kimi只阅读了前89%,但仍然完成了任务。记者认为Kimi写得马马虎虎,把业绩稿写成流水账式的软文,没有根据公司行业特点对年报进行解读。而且,营收、净利润等关键数据都出现了错误,如该公司去年营收实为5.06亿元,但Kimi写成了50.65亿元。
跃问提示“附件内容超限 20%,请删除部分附件内容” 。
▌网站读取与归纳能力
接下来,《科创板日报》记者要求Kimi和跃问将上海硬科技企业TOP100榜单100家公司的工商注册地址所在的市辖区列成表格。
这个任务Kimi和跃问的完成度都不高。Kimi只列出3家公司的所在区。
跃问列出了11家公司的所在区。
然后,记者给Kimi和跃问发去了苹果招聘网站地址,要求它们筛选出中国的岗位。
Kimi和跃问都没有使用网页上的筛选或翻页按钮,只找到了网站第一页仅有的1个在中国的岗位。Kimi额外列出了一个在泰国的岗位,文不对题。
▌逻辑推理
在逻辑能力方面,《科创板日报》记者请Kimi和跃问判断“因为凶手不是背包旅客,而且你不是背包旅客,所以你是凶手。”这句话的逻辑是否正确。
Kimi和跃问都能发现了这句话是在偷换概念,非背包旅客身份与凶手身份无关,根据给定的前提,不能得出“你是凶手”的结论。
记者继续向Kimi和跃问提问,怎样清洁一个装满食人鱼的水箱而不受到攻击和受伤?
Kimi未能正确理解题意,利用在网上搜到食人鱼溶液的相关资料,回答了如何用食人鱼溶液清洗晶片、样品的方法,文不对题。
跃问较好地回答了该问题。
在数学能力方面,《科创板日报》记者准备了1道排列组合的问题来考验Kimi和跃问:“某校在教师交流活动中,决定派2名语文教师,4名数学教师到甲、乙两个学校交流,规定每个学校派去3名老师且必须含有语文老师和数学老师,则不同的安排方案有多少种?”。这道题的答案是有12种不同的安排方案。
Kimi的解题过程很复杂,它得到的结果是42种不同的安排方案,显然它答错了。
跃问解题过程相对简洁,解出了正确答案。
记者决定再用1道计算概率的数学题,来考验Kimi和跃问:“甲、乙两人相约见面,并约定第一人到达后,等15分钟不见第二个人来就离去。假设他们都在10点到10点半的任一时间来到见面地点,则两人能见面的概率是多少?”这道题的答案是0.75。
Kimi得到的结果是5/243,又答错了,Kimi的数学能力似乎有所欠缺。
跃问得到的结果是0.75,回答正确。
▌编程能力
在编程能力方面,《科创板日报》记者要求Kimi和跃问使用Python制作贪吃蛇游戏。
Kimi和跃问都给出了代码,经测试,均能成功运行。
在多模态能力方面,《科创板日报》用一张来自百科的上海中心大厦照片来测试Kimi和跃问最基本的识图能力。
Kimi回复称,它作为文本交互的Al,无法直接查看或分析图片内容。
跃问回答出了正确的地点,并对上海中心大厦进行了简洁地介绍。
由于Kimi作为文本交互的Al,在多模态能力有所缺失,记者就不对Kimi和跃问多模态能力进行进一步的对比了,评测也在此告一段落。
▌期待大模型应用百花争艳
这一系列紧张激烈的评测显示,Kimi和跃问能力各有千秋,Kimi在长文本处理、阅读理解等方面实力较强,但数学、多模态等能力有所欠缺,而跃问在长文处理方面可圈可点,逻辑、数学、多模态等方面的表现则更胜一筹。
2024年是大模型落地应用的元年,相信不管是大厂还是大模型创业独角兽,都会不断推出爆款应用抢占市场,争夺用户。我们在期待国内大模型应用不断落地生根,百花争艳,助力千行百业打造新质生产力。《科创板日报》记者将持续关注那些出圈超能力的爆款AI应用。
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)