月之暗面“Kimi”VS阶跃星辰“跃问”谁更能打?科创板日报记者实测来了

月之暗面“Kimi”VS阶跃星辰“跃问”谁更能打?科创板日报记者实测来了
2024年03月29日 09:18 财联社

《科创板日报》3月28日讯(记者 朱凌)近日,两家具有硬核实力的大模型创业企业月之暗面、阶跃星辰的应用“Kimi”与“跃问”火出圈了。《科创板日报》记者对这两位AI“当红”应用选手进行了一场能力评测。

▌长文本理解

据介绍,Kimi、跃问都在长文本处理上有优势。因此,>《科创板日报》记者首先上传了一篇约7万字符的论坛速记,要求Kimi和跃问根据速记概括各位发言人的观点,并提取各位发言人的金句。

Kimi结果Kimi结果

Kimi未按要求对各位发言人的观点进行概括,仅提取出发言人的简介和金句,并对论坛进行了简单的总体性概括。

跃问结果跃问结果

跃问按要求完成了任务,质量较高,还识别出了圆桌环节,并对圆桌环节进行了单独的概括。

接下来,《科创板日报》记者上传了一本近9万字符的小说《9号的工作》,请Kimi和跃问写读后感。

Kimi结果Kimi结果
跃问结果跃问结果

Kimi和跃问都很快写了出来,它们都对小说内容进行了概括。比起跃问,Kimi有更多的感想与思考,基本符合读后感的要求。而跃问感想部分偏少,更像是对小说的介绍

然后,《科创板日报》记者随机找了家最近发布年报的公司,请Kimi和跃问概括年报。

Kimi结果Kimi结果

Kimi回复,其无法直接访问文件或查看图片内容,无法提供年报的具体概括。

跃问结果跃问结果

跃问从网上找到了财经网站基于该公司业绩快报的资讯,进行了概括,但在概括中称数据和信息来自年报。

记者换了一个问法,请Kimi和跃问解读年报。

Kimi结果Kimi结果

Kimi在上交所官网找到了该公司年报摘要、业绩快报等公告,但未找到年报全文,解读也一般。

跃问结果跃问结果

跃问找到的资料仍来自于财经网站基于业绩快报的资讯,但在概括的开头称“年报显示”,结尾写着“数据和信息基于业绩快报”,自相矛盾。解读内容基本就是对业绩的概括,缺少解读性语句。

《科创板日报》记者把该公司年报全文链接提供给Kimi和跃问,再次要求Kimi和跃问解读年报。

Kimi结果Kimi结果

由于年报全文超20万字,即使开启新对话,Kimi仍无法完成该任务。

跃问结果跃问结果

跃问顺利完成了解读,但解读泛泛而谈。

▌数学计算能力

紧接着,记者要求它们计算该公司2021年-2023年营收复合增长率。

Kimi结果Kimi结果

Kimi在网上找到了相关数据,并计算出了结果。

跃问结果跃问结果

跃问未进行网络搜索,因此无法进行计算,仅给出了计算公式

《科创板日报》记者上传了另一家公司的年报,请Kimi和跃问以财联社风格写一篇1500字以内的业绩稿。

Kimi结果Kimi结果

由超出字数限制,Kimi只阅读了前89%,但仍然完成了任务。记者认为Kimi写得马马虎虎,把业绩稿写成流水账式的软文,没有根据公司行业特点对年报进行解读。而且,营收、净利润等关键数据都出现了错误,如该公司去年营收实为5.06亿元,但Kimi写成了50.65亿元。

跃问结果跃问结果

跃问提示附件内容超限 20%,请删除部分附件内容”

▌网站读取与归纳能力

接下来,《科创板日报》记者要求Kimi和跃问将上海硬科技企业TOP100榜单100家公司的工商注册地址所在的市辖区列成表格。

Kimi结果Kimi结果

这个任务Kimi和跃问的完成度都不高。Kimi只列出3家公司的所在区。

跃问结果跃问结果

跃问列出了11家公司的所在区。

然后,记者给Kimi和跃问发去了苹果招聘网站地址,要求它们筛选出中国的岗位。

Kimi结果Kimi结果
跃问结果跃问结果

Kimi和跃问都没有使用网页上的筛选或翻页按钮,只找到了网站第一页仅有的1个在中国的岗位。Kimi额外列出了一个在泰国的岗位,文不对题。

▌逻辑推理

在逻辑能力方面,《科创板日报》记者请Kimi和跃问判断“因为凶手不是背包旅客,而且你不是背包旅客,所以你是凶手。”这句话的逻辑是否正确。

Kimi结果Kimi结果
跃问结果跃问结果

Kimi和跃问都能发现了这句话是在偷换概念,非背包旅客身份与凶手身份无关,根据给定的前提,不能得出“你是凶手”的结论。

记者继续向Kimi和跃问提问,怎样清洁一个装满食人鱼的水箱而不受到攻击和受伤?

Kimi结果Kimi结果

Kimi未能正确理解题意,利用在网上搜到食人鱼溶液的相关资料,回答了如何用食人鱼溶液清洗晶片、样品的方法,文不对题。

跃问结果跃问结果

跃问较好地回答了该问题。

在数学能力方面,《科创板日报》记者准备了1道排列组合的问题来考验Kimi和跃问:“某校在教师交流活动中,决定派2名语文教师,4名数学教师到甲、乙两个学校交流,规定每个学校派去3名老师且必须含有语文老师和数学老师,则不同的安排方案有多少种?”。这道题的答案是有12种不同的安排方案。

Kimi结果Kimi结果

Kimi的解题过程很复杂,它得到的结果是42种不同的安排方案,显然它答错了。

跃问结果跃问结果

跃问解题过程相对简洁,解出了正确答案。

记者决定再用1道计算概率的数学题,来考验Kimi和跃问:“甲、乙两人相约见面,并约定第一人到达后,等15分钟不见第二个人来就离去。假设他们都在10点到10点半的任一时间来到见面地点,则两人能见面的概率是多少?”这道题的答案是0.75。

Kimi结果Kimi结果

Kimi得到的结果是5/243,又答错了,Kimi的数学能力似乎有所欠缺。

跃问结果跃问结果

跃问得到的结果是0.75,回答正确。

▌编程能力

在编程能力方面,《科创板日报》记者要求Kimi和跃问使用Python制作贪吃蛇游戏。

Kimi结果Kimi结果
跃问结果跃问结果

Kimi和跃问都给出了代码,经测试,均能成功运行。

在多模态能力方面,《科创板日报》用一张来自百科的上海中心大厦照片来测试Kimi和跃问最基本的识图能力。

Kimi结果Kimi结果

Kimi回复称,它作为文本交互的Al,无法直接查看或分析图片内容。

跃问结果跃问结果

跃问回答出了正确的地点,并对上海中心大厦进行了简洁地介绍。

由于Kimi作为文本交互的Al,在多模态能力有所缺失,记者就不对Kimi和跃问多模态能力进行进一步的对比了,评测也在此告一段落。

▌期待大模型应用百花争艳

这一系列紧张激烈的评测显示,Kimi和跃问能力各有千秋,Kimi在长文本处理、阅读理解等方面实力较强,但数学、多模态等能力有所欠缺,而跃问在长文处理方面可圈可点,逻辑、数学、多模态等方面的表现则更胜一筹。

2024年是大模型落地应用的元年,相信不管是大厂还是大模型创业独角兽,都会不断推出爆款应用抢占市场,争夺用户。我们在期待国内大模型应用不断落地生根,百花争艳,助力千行百业打造新质生产力。《科创板日报》记者将持续关注那些出圈超能力的爆款AI应用。

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-01 宏鑫科技 301539 10.64
  • 03-29 灿芯股份 688691 19.86
  • 03-27 无锡鼎邦 872931 6.2
  • 03-25 中瑞股份 301587 21.73
  • 03-22 广合科技 001389 17.43
  • 新浪首页 语音播报 相关新闻 返回顶部