谷歌发布医疗 AI 模型 MedGemma 1.5 4B:可本地部署,CT、MRI 都能处理

谷歌发布医疗 AI 模型 MedGemma 1.5 4B:可本地部署,CT、MRI 都能处理
2026年01月14日 15:14 IT之家

IT之家 1 月 14 日消息,谷歌今日发布了专为医疗场景设计的 AI 模型“MedGemma 1.5 4B”及语音识别模型“MedASR”。MedGemma 1.5 4B 是一款可本地运行的轻量化模型,相比前代产品,其准确率得到了提升。

据IT之家了解,谷歌已免费开放 MedGemma 系列开源医疗模型。MedGemma 1.5 4B 为可本地部署的轻量化模型,能够读取并分析文本及图像格式的医疗记录并进行推理。MedASR 是一款专注于医疗术语的语音识别模型,可与 MedGemma 系列模型集成,且相比现有模型具备更高的转录准确率。

谷歌提供的数据显示,与前代模型 MedGemma 1 4B(浅蓝色)相比,MedGemma 1.5 4B(蓝色)的文本处理准确率有所提升。

以下表格展示了 MedGemma 1.5 4B 与各类模型的基准测试得分。该模型的得分高于通用模型 Gemma 3 4B 及前代医疗模型 MedGemma 1 4B,部分测试中甚至优于参数规模更大的 MedGemma 1 27B。

MedGemma 系列前代产品已支持处理文本及胸部 X 光片、病理组织图像等影像数据,而 MedGemma 1.5 4B 进一步升级,可兼容计算机断层扫描(CT)、磁共振成像(MRI)等三维数据。

在影像处理准确率基准测试中,MedGemma 1.5 4B(蓝色)的得分同样高于 MedGemma 1 4B(浅蓝色)。

MedGemma 系列的另一大特点是便于开发者进行微调优化,目前已衍生出超过 500 款衍生模型。随着未来开发者社区的持续贡献,预计将推出针对各类细分任务优化的模型版本,MedGemma 1.5 4B 的相关迭代也在其中。

同日发布的 MedASR 是一款专为医疗场景打造的语音识别模型。该模型对“胸部 X 光片相关对话”的转录错误率仅为 5.2%。谷歌强调,这一表现显著优于 OpenAI 的 Whisper large-v3(同类场景错误率 12.5%)。此外,MedASR 的转录结果还可直接作为 MedGemma 系列模型的输入提示词(prompt)。

谷歌AI语音识别
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片