无问芯穹开源3B端侧模型，具备全模态理解能力_新浪财经

　　新浪科技讯 12月16日下午消息，无问芯穹宣布开源端上智能一体化解决方案中的小模型——端侧全模态理解模型Megrez-3B-Omni，并同步开源了纯语言版本模型Megrez-3B-Instruct。

　　据介绍，Megrez-3B-Omni选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，推理速度最高领先同精度模型300%。此外，还同时具备图片、音频、文本三种模态数据处理能力，且在三个模态的多种测评基准中取得最优性能。

　　在图像理解方面，Megrez-3B-Omni虽然体积仅为3B，但综合性能可以超过34B的LLaVA-NeXT-Yi-34B模型，是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

　　在语音理解方面，Megrez-3B-Omni 不仅支持中、英文语音输入，还能处理复杂的多轮对话场景，支持对输入图片或文字的语音提问，实现不同模态间的自由切换。

　　在文本理解方面，Megrez-3B-Omni在没有牺牲模型文本处理能力情况下，将上一代14B大模型的能力压缩至3B规模，显著降低了计算成本、提升了计算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上，取得端上模型最优精度。

　　据悉，目前Megrez-3B-Omni处于能力预览阶段，接下来无问芯穹将持续迭代Megrez系列，提升自动化水平至“edge device use”效果，让用户只需要给出简单的语音指令，就可完成端侧设备设置或应用操作。（文猛）

海量资讯、精准解读，尽在新浪财经APP

责任编辑：王若云

VIP课程推荐

加载中...

1/10

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）