无需Tokenizer，多模态对齐融合还会是难题吗？|字节|图像_新浪科技

机器之心PRO · 会员通讯 Week 51

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1. 无需Tokenizer，多模态对齐融合还会是难题吗？

为什么无需 tokenizer 的新架构有很大的潜在价值？BLT 对多模态模型训练、推理会产生哪些影响？目前不同模态的对齐、融合常用的方法是什么？存在哪些难题？近期有哪些工作在解决不同模态差异方面指出了新的方向？这些工作旨在解决什么问题？...

2. Ilya 小题大作？「预训练终结」≠ Scaling Law 撞墙？

Ilya哪些观点引起了争议？业内都有哪些论调在反驳Ilya？互联网数据真的会告罄吗？「预训练终结」的争议本质上是什么？预训练如果终结会带来瓶颈吗？...

3. 深度访谈：Gemini 2.0 如何映射 DeepMind 的研究路线?

Oriol Vinyals 透露了 Gemini 2.0 的哪些额外信息？从 AI Agent 到多智能体系统，模型架构发生了哪些变化？预训练与强化学习为何如此重要？如何解决大模型规模扩展出现的收益递减情况？为什么给大型语言模型等核心模型赋予「数字身体」这事很重要？...

...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递，其中技术方面 9 项，国内方面 8 项，国外方面 13 项。

本期通讯总计 23884 字，可免费试读至 9%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 无需Tokenizer，多模态对齐融合还会是难题吗？

日期：12 月 16 日

事件：来自 Meta 、芝加哥大学等机构的研究者近期提出了一种新型字节级大型语言模型架构 Byte Latent Transformer （BLT），摒弃了传统的 tokenizer 架构，直接建模原始字节流。社交平台 Reddit 多位网友指出，BLT 架构对于解决多模态模型训练中不同模态对齐、融合问题具有极大的潜在价值。

Meta 新工作提出无需 Tokenizer 的架构，为解决不同模态的差异难题提供了新思路？

1、近日，来自 Meta 、芝加哥大学等机构的新工作《 Byte Latent Transformer: Patches Scale Better Than Tokens 》引发了广泛关注。该研究工作提出了一种名为 Byte Latent Transformer （BLT）的新型字节级大型语言模型（LLM）架构，通过将字节编码成动态大小的块（patches）来进行处理，patches 作为主要的计算单元。与基于标记化（tokenization）的模型相比，BLT 在保持规模的同时首次实现了性能匹配，同时在推理效率和稳健性上取得了显著提升。[1]

2、BLT 无需 tokenizer 架构，通过直接建模原始字节流的方式引发了网友的热议。尤其是在社交平台 Reddit 上，多位网友探讨了该架构对多模态模型训练、推理的影响。

① 多模态模型的预训练中，对齐处理图像、视频、声音等不同模态的数据是一大难题。BLT 将字节编码成动态大小的 patches 作为计算单元，而不同模态的数据最终都能以字节的形式表现，字节级模型将在多模态数据处理方面有很大的潜力。[2]

在现有的多模态模型训练中，不同模态对齐、融合仍有哪些难题在探索中？

1、文本、图像、视频和音频等不同模态类型的数据呈指数级增长，而多个模态的集成可以通过利用不同模态间的互补信息，提高模型的准确性及理解复杂现实世界场景的能力。不同模态间的差异使得有效集成和利用多模态数据存在模态对齐和融合两大技术挑战。

2、由于不同模态往往来自不同的传感器，数据的形成方式和内部结构有很大的区别，不同模态间存在差异。因此，在大模型训练前，首先要先将文本、图像等模态转换成统一的向量形式。

① Tokenization 将文本分割成模型可以处理的 token 或子词的过程，Embedding 则将这些 token 映射到多维空间中的向量，捕捉其语义含义，使得模型能在神经网络中处理离散的 token，并学习单词间的复杂关系。

② 图像转 Emdedding 一般采用 Vit Transformer 模型进行处理，首先将图像分割成固定大小的 patches，类似于文本的 Tokenization，然后通过线性变换得到 patch embeddings。

③ 由于不同模态的向量是在不同的向量空间中学习并形成的，各自对事物的理解存在差异。由此，在多模态预训练中的目标即实现不同模态的对齐。通过训练输入和输出投影器（IP 和 OP）来实现不同模态之间的对齐，以便 LLM 主干能够有效地处理多模态输入。

3、模态对齐旨在解决不同模态间语义的一致性和匹配问题，建立不同模态间的语义关系，确保每个模态的表示在共同空间内对齐。

① 为了使不同的模态具有相同的语义表示，需要测量这些模态之间的相似性，同时考虑潜在的长距离依赖性和歧义。即对齐的目标是构建一个映射，将一个模态的表示与另一个共享相同语义的模态的对应表示对齐。

② 对齐分为两种类型：隐式和显式。显式对齐通常涉及使用相似性矩阵直接测量相似性，而隐式对齐通常是翻译或预测等任务的中间步骤。

③ 显式对齐直接测量不同模态之间的关系，通常使用相似性矩阵来直接测量模态间的相似性。其优点为提供了一个清晰的框架来测量相似性和建立对应关系，适用于需要明确对齐的场景，缺点是可能无法捕捉到模态间复杂的非线性关系，且在模态间存在冲突信息时可能不够灵活。

④ 隐式对齐不直接对不同模态的数据进行对齐，而是通过学习一个共享的潜在空间来改善主要任务的性能。这种方法在执行主要任务的过程中作为中间步骤，通常以潜在的方式进行。其优点是能够适应更广泛的情境，特别是涉及复杂或模糊数据关系的情况。允许模型在执行特定任务时自然地学习对齐，而不是依赖于显式的相似性测量。缺点是不如显式对齐直接和精确，不适用于在需要明确对应关系的场景。

⑤ 目前，多模态对齐面临的主要挑战包括模态特征对齐、计算效率、数据质量和训练数据集规模等。其中，如何准确对齐视觉和语言特征是一个关键任务。