谷歌推出DataGemma模型,可嵌入真实世界数据

谷歌推出DataGemma模型,可嵌入真实世界数据
2024年09月13日 07:40 中关村在线

科技公司推出DataGemma模型

谷歌在最新的努力中,基于其数据共享项目Data Commons中的真实世界统计数据,推出了一种名为DataGemma的开放权重语言模型新版本。这项研究旨在解决大语言模型(LLMs)处理数值或统计数据时面临的幻觉难题,精确性至关重要。

DataGemma通过两种关键技术:检索交错生成(RIG)和检索增强生成(RAG),利用可信组织收集的超过2400亿个数据点,提升模型准确性,并确保其输出基于现实世界信息。

RIG技术使模型能够主动查询可信来源并生成回答。当接收到提示词后,DataGemma会识别查询中的统计数据,并从数据共享平台获取准确信息。例如,在回答“全球可再生能源使用量是否增加?”这个问题时,该模型会穿插实时统计数据以保证事实准确性。

RAG技术则确保回答的质量。在生成回答之前,DataGemma会从数据共享平台检索相关信息来进一步提高回复的质量。长上下文窗口由Gemini1.5 Pro实现,确保了回答的全面性和清晰度,同时引入了表格和脚注以提供更深层次的上下文。研究团队强调这些技术如何帮助大语言模型判断何时依赖外部数据与内部参数。

谷歌对RIG和RAG的研究仍处于初期阶段,但初步成果令人鼓舞。借助于嵌入现实世界数据的方式,DataGemma模型在处理数值事实和统计查询方面展现出显著提升。

总体而言,这项研究为大语言模型提供了新的思路和方法来处理数值和统计数据问题,并有望推动AI技术领域取得更多突破性进展。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片