新浪科技讯 12月16日下午消息,无问芯穹宣布开源端上智能一体化解决方案中的小模型——端侧全模态理解模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。
据介绍,Megrez-3B-Omni选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最高领先同精度模型300%。此外,还同时具备图片、音频、文本三种模态数据处理能力,且在三个模态的多种测评基准中取得最优性能。
在图像理解方面,Megrez-3B-Omni虽然体积仅为3B,但综合性能可以超过34B的LLaVA-NeXT-Yi-34B模型,是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。
在语音理解方面,Megrez-3B-Omni 不仅支持中、英文语音输入,还能处理复杂的多轮对话场景,支持对输入图片或文字的语音提问,实现不同模态间的自由切换。
在文本理解方面,Megrez-3B-Omni在没有牺牲模型文本处理能力情况下,将上一代14B大模型的能力压缩至3B规模,显著降低了计算成本、提升了计算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上,取得端上模型最优精度。
据悉,目前Megrez-3B-Omni处于能力预览阶段,接下来无问芯穹将持续迭代Megrez系列,提升自动化水平至“edge device use”效果,让用户只需要给出简单的语音指令,就可完成端侧设备设置或应用操作。(文猛)
海量资讯、精准解读,尽在新浪财经APP
责任编辑:王若云
VIP课程推荐
加载中...
APP专享直播
热门推荐
收起
新浪财经公众号
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)