Google(谷歌)于2024年9月推出基于Gemma 2 27B的新模型DataGemma系列,其参数量约270亿,同步于Hugging Face上架程序码。由于DataGemma系列可透过检索交错生成(Retrieval-Interleaved Generation,RIG)或检索增强生成(Retrieval-Augmented Generation,RAG),与Google建立的开源知识图谱进行事实对照,可望改善LLM的“幻觉”问题。
拓墣观点
DataGemma系列可望解决LLM缺乏事实根据的问题
由于DataGemma系列使用的开源知识图谱为Data Commons,其数据源自联合国(UN)、世界卫生组织(WHO)、美国疾病管制与预防中心(CDC)、权威学术期刊等公开信息,并透过事实性数据及数据共享方式,提高模型对应真实世界的能力,从而降低生成产生的幻觉问题;此外,当模型在生成内容时,也能提供原始引用来源的链接,以提供使用者再次检证。
目前LLM在内容生成上的幻觉问题,以生成错误讯息、缺乏事实根据,以及逻辑不一致或矛盾等为常见,DataGemma系列则通过连接真实数据,提供生成内容事实依据;但由于这些数据资料仍属公开的开源资料,因而能解决限度范围内的真实性问题。
幻觉与个人信息安全仍为生成式AI发展隐忧,欧盟监管力度持续
目前生成式AI在应用上,除了面临幻觉、著作权等问题之外,在现行的对话式AI产品中,不乏涉及个人信息安全问题,让使用过程中的内容直接成为训练数据,例如Meta承认合法使用社群媒体的公开贴文作为模型训练数据,因而影响Meta AI在欧盟地区的上线时间。虽然通过生成式AI来提供个性化为其特色,但也伴随着信息安全问题。
鉴于《欧盟人工智能法案(EU AI Act)》正式生效,使人工智能领域中的幻觉与个人信息安全问题备受挑战,同时也让模型厂商面临严格的审查机制。近期欧盟通过爱尔兰资料保护委员会(Data Protection Commission)对Google的PaLM2模型启动数据保护影响评估(Data Protection Impact Assessment,DPIA)审查,以确保涉及日常工作、医疗、网络安全分析等应用的Workspace、Med-PaLM 2、Sec-PaLM等系列模型能够严格遵守并符合相关的数据保护规范。
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)