投资者提问:Yan 1.2大模型的推理能力和准确率如何?相关评测的数据如...

投资者提问:Yan 1.2大模型的推理能力和准确率如何?相关评测的数据如...
2024年08月01日 21:01 问董秘

投资者提问:

Yan 1.2大模型的推理能力和准确率如何?相关评测的数据如何?谢谢!

董秘回答(岩山科技SZ002195):

公司旗下岩芯数智自主研发的Yan1.2多模态大模型运行在树莓派5(频率为2.4GHz的64位四核Arm Cortex-A76处理器)上进行推理每秒可达7-8 tokens的响应效率,在中低端的手机上推理每秒可达20+tokens(CPU运行,非NPU或GPU)的响应效率。根据媒体公开报道,Llama3 8B模型量化后在树莓派5上每秒速率低于2 tokens。 基于目前评测情况,Yan1.2大模型处于行业领先水平。Yan架构核心原理包括MCSD(multi-channel slope and decay)和基于仿生神经元驱动的类脑激活机制等。鉴于Yan1.2为多模态模型,为便于评测比较,岩芯数智将Yan1.2的核心模块即自然语言部分MCSD 3B模型,采用5-shot测试方法,与Llama3 8B模型、Pythia 2.8B模型、Mamba 2.8B模型、RWKV4 3B模型这4个典型自然语言模型进行了比较。岩芯数智将5个模型分别对ARC-C、ARC-E、WinoGrande、MMLU、Hellaswag 5个基本任务进行评测,MCSD 5个基本任务评测平均分为53.5分,高于Phthia(48.6分)、Mamba(52.4分)、RWKV4(49.1分),低于模型更大的Llama3(75.0分)。该评测结果评估了包括模型的准确率在内的整体综合表现,该结果已公开在论文当中(论文链接:https://arxiv.org/abs/2406.12230)。 根据美国苹果公司在其公开论文(论文链接:https://arxiv.org/abs/2404.14619)中发表的测试结果,其OpenELM模型(模型大小3.04B)采用zero-shot测试方法在7个基本任务上进行了测试,其中4个可比任务ARC-C、ARC-E、WinoGrande、Hellaswag的测试平均分为58.36分,低于MCSD的59.5分。OpenELM模型采用测试方法与MCSD不同且MCSD训练语料少于OpenELM,该对比结果仅供参考。 谢谢。

查看更多董秘问答>>

免责声明:本信息由新浪财经从公开信息中摘录,不构成任何投资建议;新浪财经不保证数据的准确性,内容仅供参考。

海量资讯、精准解读,尽在新浪财经APP
树莓派

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 08-05 珂玛科技 301611 --
  • 08-05 巍华新材 603310 --
  • 07-26 龙图光罩 688721 18.5
  • 07-23 博实结 301608 44.5
  • 07-22 力聚热能 603391 40
  • 新浪首页 语音播报 相关新闻 返回顶部