英伟达新 nGPT 架构撬动 AI 未来:训练模型时间可缩短至 1/20

英伟达新 nGPT 架构撬动 AI 未来:训练模型时间可缩短至 1/20
2024年10月22日 10:08 网易新闻

IT之家 10 月 22 日消息,科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。

nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。

传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。

这种几何结构有助于创造更稳定高效的学习过程:

英伟达团队使用 OpenWebText 数据集进行测试,nGPT 在速度和效率上均优于传统的 GPT 模型。对于长达 4000 个 tokens 的文本输入,nGPT 所需的训练轮次远少于传统模型,显著缩短了训练时间。

nGPT 的一个关键优势是将归一化(normalization)和表示学习(representation learning)结合成一个统一框架,这种设计简化了模型架构,便于扩展和适应更复杂的混合系统。未来,nGPT 的方法可能被整合进其他类型的模型和架构,从而开发出更强大的 AI 系统。

IT之家附上参考地址

海量资讯、精准解读,尽在新浪财经APP
英伟达 AI

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 10-25 健尔康 603205 --
  • 10-22 科拜尔 920066 13.31
  • 10-21 强达电路 301628 28.18
  • 10-18 科力股份 920088 7.32
  • 10-18 拉普拉斯 688726 17.58
  • 新浪首页 语音播报 相关新闻 返回顶部