无问芯穹开源3B端侧模型,具备全模态理解能力

无问芯穹开源3B端侧模型,具备全模态理解能力
2024年12月16日 14:04 新浪科技

  新浪科技讯 12月16日下午消息,无问芯穹宣布开源端上智能一体化解决方案中的小模型——端侧全模态理解模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。

  据介绍,Megrez-3B-Omni选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最高领先同精度模型300%。此外,还同时具备图片、音频、文本三种模态数据处理能力,且在三个模态的多种测评基准中取得最优性能。

  在图像理解方面,Megrez-3B-Omni虽然体积仅为3B,但综合性能可以超过34B的LLaVA-NeXT-Yi-34B模型,是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

  在语音理解方面,Megrez-3B-Omni 不仅支持中、英文语音输入,还能处理复杂的多轮对话场景,支持对输入图片或文字的语音提问,实现不同模态间的自由切换。

  在文本理解方面,Megrez-3B-Omni在没有牺牲模型文本处理能力情况下,将上一代14B大模型的能力压缩至3B规模,显著降低了计算成本、提升了计算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上,取得端上模型最优精度。

  据悉,目前Megrez-3B-Omni处于能力预览阶段,接下来无问芯穹将持续迭代Megrez系列,提升自动化水平至“edge device use”效果,让用户只需要给出简单的语音指令,就可完成端侧设备设置或应用操作。(文猛)

海量资讯、精准解读,尽在新浪财经APP

责任编辑:王若云

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 12-20 天和磁材 603072 --
  • 12-19 国货航 001391 --
  • 12-17 方正阀门 920082 3.51
  • 12-13 中力股份 603194 20.32
  • 12-10 林泰新材 920106 19.82
  • 新浪首页 语音播报 相关新闻 返回顶部