谷歌发布医疗 AI 模型 MedGemma 1.5 4B：可本地部署，CT、MRI 都能处理|谷歌|AI|语音识别_新浪科技

IT之家 1 月 14 日消息，谷歌今日发布了专为医疗场景设计的 AI 模型“MedGemma 1.5 4B”及语音识别模型“MedASR”。MedGemma 1.5 4B 是一款可本地运行的轻量化模型，相比前代产品，其准确率得到了提升。

据IT之家了解，谷歌已免费开放 MedGemma 系列开源医疗模型。MedGemma 1.5 4B 为可本地部署的轻量化模型，能够读取并分析文本及图像格式的医疗记录并进行推理。MedASR 是一款专注于医疗术语的语音识别模型，可与 MedGemma 系列模型集成，且相比现有模型具备更高的转录准确率。

谷歌提供的数据显示，与前代模型 MedGemma 1 4B（浅蓝色）相比，MedGemma 1.5 4B（蓝色）的文本处理准确率有所提升。

以下表格展示了 MedGemma 1.5 4B 与各类模型的基准测试得分。该模型的得分高于通用模型 Gemma 3 4B 及前代医疗模型 MedGemma 1 4B，部分测试中甚至优于参数规模更大的 MedGemma 1 27B。

MedGemma 系列前代产品已支持处理文本及胸部 X 光片、病理组织图像等影像数据，而 MedGemma 1.5 4B 进一步升级，可兼容计算机断层扫描（CT）、磁共振成像（MRI）等三维数据。

在影像处理准确率基准测试中，MedGemma 1.5 4B（蓝色）的得分同样高于 MedGemma 1 4B（浅蓝色）。

MedGemma 系列的另一大特点是便于开发者进行微调优化，目前已衍生出超过 500 款衍生模型。随着未来开发者社区的持续贡献，预计将推出针对各类细分任务优化的模型版本，MedGemma 1.5 4B 的相关迭代也在其中。

同日发布的 MedASR 是一款专为医疗场景打造的语音识别模型。该模型对“胸部 X 光片相关对话”的转录错误率仅为 5.2%。谷歌强调，这一表现显著优于 OpenAI 的 Whisper large-v3（同类场景错误率 12.5%）。此外，MedASR 的转录结果还可直接作为 MedGemma 系列模型的输入提示词（prompt）。