2025.07.15

MiniMax M1全球技术闭门会实录：RL、混合架构、长上下文的下一步

7月10号，MiniMax面向全球举办了M1技术探讨会。作为中国团队，我们很高兴组织发起与全球学者的开放技术探讨。现场，来自十几个国家地区的观众从世界各地加入，与M1团队和全球学者进行了技术交流。

M1团队与来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾在模型架构创新、RL训练、长上下文应用等领域探讨了当前的前沿话题。嘉宾详见：

秉承开源精神，我们将本场探讨会的技术观点分享出来，以下是要点总结：

01. RL能否赋予模型新能力？

RL能否提升模型的基础能力？很多人认为，RL只是在激活模型在预训练阶段就已经学会的一些能力或技巧，不能够让模型从根本上学会预训练阶段不存在的新技能，例如有些论文说，RL并不能提高模型的pass@k。

首先需要定义模型的基础能力。一个比较实用的定义是，对于给定的上下文长度，模型在一组特定问题上，在无限次尝试下的通过率（pass@k, k→∞）是多少。如果这个通过率等于1，就表示这个模型能解决这类问题。如果通过率等于0，就表示模型解决不了。如果模型的生成长度，即模型思考过程的长度是无限的，RL什么也改变不了。根据定义，如果你有无限的上下文长度，那么所有能用自然语言表述的问题，理论上都可以通过有限次的采样尝试来解决。

如果针对一个有限上下文长度，RL是否能赋予模型新能力？答案是：能。因为RL所做的是改变模型输出的分布。预训练后，模型可能需要至少10W个token才能解决某个问题，但经过RL微调后，它可能只需要10K个token。如果模型有限上下文长度是50K个token，那么RL的确赋予了模型新能力。

在有限上下文长度下， pass@k 是一个好的衡量指标。K的取值很重要，这取决于如何定义模型能力，如果定义是“模型至少有一次能解决这个问题”，那么应该用尽可能大的k来衡量pass@k；但如果定义是“模型能否在4次尝试内解决问题”，那应该去衡量 pass@4。

目前 Reward 是RL scaling 的核心瓶颈，特别是如何为那些不基于结果的奖励（non-outcome-based reward）进行建模，这是全世界都还感到困惑的地方。比如，人类可以从别人写的一段文字或反馈中获得正面或负面的感受，但我们目前并没有很好的方法来对这种主观感受进行建模。

02. 预训练的价值在于更多样化的数据分布

如何理解预训练在RL过程中的角色？如果预训练在某些技能，如编程或数学，上有所欠缺，后训练阶段仅凭RL能把这块短板补上吗？

原则上可以，只要有足够的信息源，我们就可以用RL来替代任何过程。某种意义上，预训练只是RL的一种特例。任何监督学习都可以被看作是一种特殊的强化学习。现阶段，RL训练阶段的数据分布，要远比预训练数据的分布狭窄得多。这正是目前进行预训练能带来的最大收益——它让模型获得了范围远为广阔的知识。

但在当前阶段，预训练的价值在于，我们可以在预训练阶段接触到更多样化的数据分布。因为目前RL训练数据的质量要求门槛相当高，我们主要知道如何在有限的环境中扩展RL训练，例如reward被清晰定义的环境。目前RL研究的核心挑战之一是如何拓展至reward清晰的环境之外。奖励建模（Reward Modeling）可能是一种解决方案，但更为通用的奖励信号依然是行业在探索的方向。

03. 只在数学和代码上做RL训练，更容易产生幻觉

关于通用推理，至少在今年二月左右，大多数RL数据，都来自于数学或编程领域。而事实是，只在数学和代码上进行RL训练，模型更容易产生幻觉。在很多事实性基准，比如SimpleQA上的性能会显著下降，甚至在像MMLU这样的多学科问答基准上也会下降。

因此我们做通用推理数据集的一个动机，就是为了创建更多样化的RL训练数据。WebInstruct-verified旨在为所有领域构建更大规模的RL训练数据，以便模型能够在不同领域取得进步，而不仅是数学和编程。

现在我们甚至在尝试进一步扩大这个规模。之前，通过在预训练数据集中搜索可用的RL数据来扩大规模，我们成功地把它扩展到了50万的量级。现在正尝试通过检索更大规模的预训练数据集，从中获取越来越多样的RL数据，并采用在mid-training进行RL的范式，而不仅仅是作为后训练。

04. 如何让模型用图像思考？

目前很多视觉推理范式，核心大都集中在文本形式的思维链上，而视觉部分固化为一个 ViT编码器，没法让模型在编码图像上花费更多计算资源。而像 Pixel Reasoner 或其他一些工作，正试图帮模型重新审视图像的特定区域，并对其进行重新编码，从而在关键区域上投入更多算力。

但这并不是一个非常本质的提升模型能力的方法，在现阶段更像是一个权宜之计。因为现有的视觉编码器太弱了，无法很好地处理高分辨率图像，所以才尝试用zoom-in或其他操作来操纵图像表示，然后从输入中重新调用它，并在此基础上进行推理。在现阶段，大多数工具，比如zoom-in、重新调用帧或高亮显示，实际上都只是在增强感知能力。

也存在一些更复杂的工具，能从根本上改变图像，比如使用图像生成技术。这种做法就已经超越了单纯增强感知的范畴，比如在几何问题中画辅助线。最近还没太多这方面的成功案例，但如果有人能设法让这种方法奏效，那它将是“用图像思考”的一个更强大版本。

我们仍然需要解决根本的瓶颈问题：如何更好地编码视觉像素，以及如何以更好的方式在潜在空间（latent space）中进行视觉推理——注意，不是在实际的像素空间，而是在抽象的潜在空间。

Latent reasoning可能是一个非常好的机会。很多视觉推理，特别是在机器人或具身智能领域，真的需要在空间中思考。在这些涉及空间感的场景下，文本推理就不是一个好方法，很多推理过程是隐式的，无法被清晰地表述或言语化。

05. 当前RL领域最令人兴奋的挑战

RL面临挑战之一，是Reward Modeling，特别是如何超越那些结果容易被评估的环境。这将会极大地扩展RL应用场景。

另一个可能很重要的领域是多智能体。不过，多智能体目前更多受限于基础设施，而非理论研究。对我来说，用一个中央模型调用子智能体和调用工具是同一回事，没有区别。当我说“多智能体”时，脑海中想的更多的是一个包含多个AI模型、并且它们在训练过程中相互交互的环境。

还有一个令人兴奋的领域就是AI自动化研究——让模型自己训练自己。这其实一直以来都与AGI的定义相关：当模型可以在没有人类干预的情况下，自我训练并自我提升。

还有刚刚提到的，非Token空间的推理，那里也存在着机会。

06. 长上下文是Agent的Game changer

长上下文在Agent工作流中有巨大潜力。我们另一个客户正在构建复杂的智能体系统，长上下文窗口对他们来说是真正的game-changer。Agent完成某个任务时，能够将整个代码库、API参考文档、历史交互数据等等，全部一次性喂给它。这种任务你不能分几次调用来处理，因为当你让智能体完成任务时，它掌握的关于这个项目的信息越多，产出的质量就越高。

我们有望从目前在大多数情况下，只能处理相当孤立任务的智能体，发展到那些能够管理复杂项目、同时保持完整上下文感知的智能体。

对于Nebuis的客户，M1这样超长上下文模型的真正价值在于解锁了全新的企业级应用场景。这些场景以前用分块处理策略来解决，非常繁琐，甚至几乎不可能。

例如，一个法律行业客户需要把文件一块一块地喂给大语言模型，并用一些窍门来优化检索和上下文管理。这样问题在于，可能错过埋藏在某个随机法律文件某一页中的关键细节。而有了1M token的上下文窗口，就可以一次性处理整个案件历史、所有相关判例以及所有其他信息源，这无疑能提升了服务质量。

Writer是一家服务于全球企业级客户的公司，长上下文模型在企业级应用需求非常广泛。它被应用得最多的领域之一是法律合规分析。比如，分析冗长的合同、电子健康记录或公司年报，从中提取关键条款、识别风险，然后附上引文进行总结，需要非常巨大的上下文窗口。另一个领域是客户研究洞察。比如，总结大量的调查问卷回复或研究论文，以发现其中的主题，并提取一些见解。

长上下文模型也被大量用于收入与报告相关的业务。比如，录入大量的项目招标书，从Salesforce中拉取数据，然后自动起草第一版的回应；或者处理一些基金报告，这需要将内部研究与第三方市场数据结合起来。还有技术支持与知识管理领域。这是每个开发者的负担——对工单进行分类，更新内容管理系统，或者为已有的工作流发布内容。要让智能体在这个领域里运作，就需要长上下文能力。

07. 混合架构将成为主流

对比纯线性注意力和Full Attention，混合注意力机制（Hybrid Attention）无疑是最有前景的方案。线性注意力机制有很多根本性局限，因为它的状态大小是固定的，因此，在处理长序列建模问题时表现不佳。而Full Attention虽然提供了灵活性，但其代价也显而易见：KV缓存大小会随着序列长度线性增长，并且训练复杂度也是平方级的。当序列不断变长时，高昂的推理和训练复杂度就会成为瓶颈。将这两种机制结合起来，也就显得顺理成章，混合模型（Hybrid Model）就应运而生了。

混合架构将会成为模型设计的主流，因为随着对大规模部署和低延迟需求的增长，人们会越来越关心推理效率和模型的推理能力。MiniMax的模型也证明了这一点。至于如何进一步拓展混合注意力架构的空间，未来的研究者需要思考，不能只是简单地用固定的比例来交错堆叠Softmax注意力和线性注意力层，也许需要更多样的混合架构形式。

脱离硬件的纯粹算法研究，正逐渐失去关注度，尤其是在LLM领域。如果一项技术无法规模化，或者不能被高效地部署，那它就很难获得关注、形成势能。一个算法不仅要在理论上站得住脚，还必须在硬件上——尤其是在GPU或TPU这类加速器上高效运行。如今的算法研究者们已经，并且也应当熟悉基本的硬件原理，比如内存层级（memory hierarchy）、并行计算（parallelism）、共享内存（shared memory）等等。他们还应该去掌握一些底层的GPU编程工具，比如 Triton。这才是当今在LLM领域做算法研究的正确方向。

混合架构目前的瓶颈在于基础设施。混合模型的有效性在去年就已经得到了很好的验证，但没有公司投入更多资金进行大规模验证，直到 MiniMax 发布了他们的大模型 MiniMax Text-01，人们才意识到混合模型原来有这么大的潜力。当前算法层面已经趋于稳定了，我们应该专注于为这些新机制构建好的基础设施。

08. 混合架构推理的前沿实践

在推理层面，随着混合注意力架构越来越流行，为了在SGLang或其他推理引擎中充分利用缓存感知和缓存复用等特性，我们需要为普通架构和混合架构设计一个统一的抽象层，这样才能简单地将所有优化应用到混合模型上。

此外当前MiniMax模型这种7+1层交错的架构可能会带来一些工程挑战，特别是在用计算图优化（Graph Optimization）进行部署时，因为不同层的计算和内存访问模式是不同的，这会导致GPU利用率不平衡。可能需要用一些技术来解决它，比如批处理重叠（batch overlapping）或者更先进的pipline策略。

从支持混合架构的技术层面来说，首先需要一个混合分配器（hybrid allocator），这个功能在vLLM中已经有了。它有助于管理混合架构的KV缓存——尽管对于某些部分我们不称其为KV缓存，但混合架构中仍然存在某种形式的状态。这些状态的生命周期与全注意力层的KV缓存并不同步，所以需要设计如何让它与现有的缓存机制、预填充、解码等环节协同工作。

其次，批处理重叠（batch overlapping）会很有帮助。采用了混合架构后，有些层是full attention，有些层只是简单的线性注意力，这就存在计算不平衡。如果按顺序计算，那么在计算线性注意力层时，计算资源可能就未被充分利用。但如果能将两个微批次（micro-batches）重叠起来处理，只要比例计算得当，理论上任意时刻都会有一个微批次在执行计算密集型的full attention 操作，从而最大化GPU利用率。

从生产部署的角度来看，混合架构的推理速度对现实应用至关重要。例如，有一个客户，需要并发处理多个几十万token的请求。但对于使用二次方复杂度注意力的传统模型，在这种输入大小和并发量下，生成速度都会变得极慢。用 DeepSeeker-R1，在8个并发请求、每个请求10万token的情况下，平均要等待大约1分钟才能得到首个token。而用MiniMax的模型，大约是4到5秒，数字小了一个量级。这个速度完全可以接受，并且也为在生产负载下，用如此大的上下文进行在线应用解锁了可能性。

09. M1背后的Q&A

Q: 混合线性注意力如何影响使用RL的推理模型的性能？

A: 在训练过程中，当我们们扩展到可处理数万 token 上下文长度的模型时，遇到了重大问题：RL 训练停滞不前，奖励信号在仅几百步后就不再增长。研究后，我们发现问题在于，线性注意力架构在这种规模下固有的训练不稳定性。这导致了一些问题，比如某些层激活值爆炸等，并使模型在训练和推理时的行为出现了严重错位。识别并修复了这个 bug 之后，我们才成功地使用RL训练该模型。

这个问题，也使得我们发现混合注意力的一些根本性权衡：它效率极高，单位 token 的计算成本非常低，但通常需要完成更多的 token (即更长的推理路径) 才能达到与 full attention 模型相同的性能。然而，我们的工作证明了，通过适当调整的RL以及合适的推理时算力，混合注意力模型确实能媲美full attention架构的性能。

这对未来架构设计的一个关键启示，是评估方法的重要性。为了公平地比较混合模型与其他模型，我们应该基于在给定任务下、固定总计算预算内的性能来进行评估，而不仅仅是比较固定输出长度下的效果。这提供了一个更全面、更能反映模型真实效率和能力的视角。

Q: 推理模型是否已经具备了System 2推理和自我反思能力？

A: System 2推理和自我反思，可以被理解为从大语言模型基本原理中涌现出的、可被观测的模式。

首先其核心驱动力，是有效利用更大的计算资源，即更长的输出，来获得更好性能的能力。我们观察到的高环推理能力，是“扩展这些资源后的直接结果，而非其根本原因。本质上，为模型提供更多的计算能力去“思考”，使得这些复杂的模式得以涌现。

其次，这种高级推理可以被看作是一种自动化的Prompt Engineering，对于数学或编程等复杂任务，模型学会了生成自己的内部思考过程，这实际上取代了人类提供详尽、分步式指令的需要。

对于写作等任务，模型在思考过程中会先对问题进行分析，并对写作步骤进行专业化拆解，它会独立地执行诸如规划和对问题进行更深层次分析等操作。这使模型能够够通过创建详细推理路径来“像专家一样思考”。

因此 System2 推理和自我反思，实质上是如何高效地利用并扩展计算预算 (computation budget)，同时也是模型自动演化用户问题的体现。

自创立以来，MiniMax 即以“与所有⼈共创智能”为使命，致⼒于推动⼈⼯智能科技前沿发展，实现通⽤⼈⼯智能 (AGI)。我们将继续坚持做上规模更难的事，坚持底层架构和算法创新，与合作伙伴⼀起为全球开源社区持续贡献。

Intelligence with Everyone.