谷歌公布新模型DataGemma，可望突破LLM的幻觉问题|谷歌_新浪财经

Google（谷歌）于2024年9月推出基于Gemma 2 27B的新模型DataGemma系列，其参数量约270亿，同步于Hugging Face上架程序码。由于DataGemma系列可透过检索交错生成(Retrieval-Interleaved Generation，RIG)或检索增强生成(Retrieval-Augmented Generation，RAG)，与Google建立的开源知识图谱进行事实对照，可望改善LLM的“幻觉”问题。

拓墣观点

DataGemma系列可望解决LLM缺乏事实根据的问题

由于DataGemma系列使用的开源知识图谱为Data Commons，其数据源自联合国(UN)、世界卫生组织(WHO)、美国疾病管制与预防中心(CDC)、权威学术期刊等公开信息，并透过事实性数据及数据共享方式，提高模型对应真实世界的能力，从而降低生成产生的幻觉问题；此外，当模型在生成内容时，也能提供原始引用来源的链接，以提供使用者再次检证。

目前LLM在内容生成上的幻觉问题，以生成错误讯息、缺乏事实根据，以及逻辑不一致或矛盾等为常见，DataGemma系列则通过连接真实数据，提供生成内容事实依据；但由于这些数据资料仍属公开的开源资料，因而能解决限度范围内的真实性问题。

幻觉与个人信息安全仍为生成式AI发展隐忧，欧盟监管力度持续

目前生成式AI在应用上，除了面临幻觉、著作权等问题之外，在现行的对话式AI产品中，不乏涉及个人信息安全问题，让使用过程中的内容直接成为训练数据，例如Meta承认合法使用社群媒体的公开贴文作为模型训练数据，因而影响Meta AI在欧盟地区的上线时间。虽然通过生成式AI来提供个性化为其特色，但也伴随着信息安全问题。

鉴于《欧盟人工智能法案(EU AI Act)》正式生效，使人工智能领域中的幻觉与个人信息安全问题备受挑战，同时也让模型厂商面临严格的审查机制。近期欧盟通过爱尔兰资料保护委员会(Data Protection Commission)对Google的PaLM2模型启动数据保护影响评估(Data Protection Impact Assessment，DPIA)审查，以确保涉及日常工作、医疗、网络安全分析等应用的Workspace、Med-PaLM 2、Sec-PaLM等系列模型能够严格遵守并符合相关的数据保护规范。