想挑战 Transformer 的新架构有很多,来自谷歌的“正统”继承者Titan架构更受关注。
英伟达把测试时间计算(Test-time Computing)称为大模型的第三个 Scaling Law。
OpenAI 把它用在推理(Reasoning),谷歌这次把它用在了记忆(Memory)。
一作Ali Behrouz表示:
他还解释了这篇研究的动机,团队认为 Transformer 中的注意力机制表现为短期记忆,因此还需要一个能记住很久以前信息的神经记忆模块。
新的长期记忆模块
提到记忆,大家可能会想到 LSTM、Transformer 等经典模型,它们从不同角度模拟了人脑记忆,但仍有局限性:
并且,仅仅记住训练数据在实际使用时可能没有帮助,因为测试数据可能在分布外。
为此,Titans 团队打算将过去信息编码到神经网络的参数中,训练了一个在线元模型(Online meta-model),该模型学习如何在测试时记住/忘记特定数据。
他们从神经心理学中汲取灵感,设计了一个神经长期记忆模块,它借鉴了人脑原理:
这种在线元学习范式,避免了模型记住无用的训练数据细节,而是学到了如何根据新数据调整自己,具有更好的泛化能力。
另外,团队还验证了这个模块可以并行计算。
如何将这个强大的记忆模块融入深度学习架构中呢?
为此,Titans 提出了三种变体:
MAC,记忆作为上下文
将长期记忆和持久记忆(编码任务知识的不变参数)作为当前输入的上下文,一起输入给 attention。
MAG,记忆作为门
在记忆模块和滑动窗口 attention 两个分支上进行门控融合。
MAL,记忆作为层
将记忆模块作为独立的一层,压缩历史信息后再输入给 attention。
在实验中,发现每种方法都有自己的优缺点。
Titans 在语言建模、常识推理、时间序列预测等任务上全面超越 Transformer 和 Mamba 等各路架构的 SOTA 模型。
并且仅靠长期记忆模块(LMM,Long-term Memory Module)本身,就在多个任务上击败基线。
证明了即使没有短期记忆(也就是 Attention),该机制也具备独立学习的能力。
在长文本中寻找细粒度线索的“大海捞针”测试中,序列长度从 2k 增加到 16k,准确率保持在 90% 左右。
但团队认为,这些通用的测试已经体现不出 Titans 在长文本上的优势。
在另一项需要对分布在极长文档中的事实做推理的任务中,Titans 表现超过了 GPT4 、Mamba 等,以及 Llama3.1 + RAG 的系统。
另外在时间序列预测、DNA 序列建模等特定任务中,Titans 也取得不错的表现。
三位作者来自 Google Research NYC 算法和优化团队,目前还没被合并到 Google DeepMind。
一作是Ali Behrouz来自康奈尔大学的实习生。
钟沛林是清华姚班校友,博士毕业于哥伦比亚大学,2021 年起加入谷歌任研究科学家。
2016 年,钟沛林本科期间的一作论文被顶会 STOC 2016 接收,是首次有中国本科生在 STOC 上发表一作论文。
领队的Vahab Mirrokni是 Google Fellow 以及 VP。
团队表示 Titians 是用 Pytorch 和 Jax 中实现的,打算很快提供用于训练和评估模型的代码。
论文地址:
https://arxiv.org/abs/2501.00663v1
参考链接:
[1]https://x.com/behrouz_ali/status/1878859086227255347
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
宋谈股经今天 03:53:24
1月17日午间收评:创业板指反弹涨0.74%,半导体芯片股集体走强1、市场早间震荡反弹,三大指数集体上涨。年报预增股受追捧,三德科技(sz300515)、华源控股(sz002787)、联化科技(sz002250)涨停。半导体芯片股反弹,康强电子(sz002119)、瑞芯微(sh603893)涨停,中芯国际(sh688981)涨近6%。化学、化工板块走强,柳化股份(sh600423)、金瑞矿业(sh600714)、藏格矿业(sz000408)、新农股份(sz002942)等封板。PCB概念股拉升,澳弘电子(sh605058)、宝鼎科技(sz002552)、金安国际涨停。机器人(sz300024)概念股继续活跃,金奥博(sz002917)、锋龙股份(sz002931)、远大智能(sz002689)等封板。下跌方面,小红书概念股迎来调整,来伊份(sh603777)跌停,福石控股(sz300071)、佳云科技(sz300242)跌超10%。个股涨多跌少,沪深京三市超2800股飘红,上午半天成交6797亿。午间收盘沪指涨0.4%,深成指涨0.68%,创业板涨0.74%。2、板块概念方面,芯片、化工、机器人(sz300024)、PCB等等板块领涨;零售、小红书、数据要素、光伏设备等板块领跌; 3、两市共2731只个股上涨,47只个股涨停;2143只个股下跌,2只个股跌停;17只股票炸板,炸板率29%。 -
宋谈股经今天 03:52:40
上午A股数据统计!【更多独家重磅股市观点请点击】 -
趋势领涨今天 03:49:40
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
徐小明今天 03:42:37
【盘中直播】下午见 -
冯矿伟今天 03:37:21
冯矿伟:挑战趋势自1月13日择时低9和1月14日的60和90分钟底背离后,虽然持续弱反,但是一直在挑战趋势,今天上午向上略有加速,这是好事,这里如果持续弱反是不利于趋势突破的,需要放量加速才能尽快的突破趋势。时间拉长一点,从1月6日到现在,都属于弱反的时间。 -
东方红陈晨今天 03:36:24
SOC〉PCB〉先进封装,然后是其他芯片跟风 -
量化伏妖今天 03:36:16
【股票午评】:技术上转弱,多方努力护盘今日市场表现稍弱,指数低开9点,粘合线刚刚金叉后就强行拐头向下,价值陡峭日线也出现了拐头向下,早盘明确今天是重要的变盘时间节点,技术指标表现比较矛盾,具体方向选择交给市场了,开盘振荡了半个小时后指数逐步攀高,有护盘力量出手相助,指数勉强翻红,技术上预示短线有变盘下行的可能性,但是多方在不断努力,试图阻止指数下行,到底能否护盘成功还需要观察。盘面上化肥行业,PCB,青海板块,磷化工,机器人(sz300024)执行器,保险等板块微涨;昨日连扳,盲盒经济,MLOps概念,AI语料,噪声防治,快手概念,商业百货等板块跌幅靠前。从尾盘拉升情况看有明显的护盘愿望,下午密切关注。 -
数字江恩今天 03:34:45
今天上午盘面算是走得还可以了,跌破了3222一点,但其后还是有脉冲起来2次。总的来说,跌破之后再起,正常就是3256为压力震荡,而不是冲高3286了。无论怎么说,下午看3228即可,这里不跌破还可以略微冲高些,这里若跌破就算震荡之后再上了 -
趋势起航今天 03:32:46
半导体拉升了一波,准备吃饭 -
宋谈股经今天 03:31:05
目前半导体领涨,符合今天主题!【更多独家重磅股市观点请点击】