7月10号,MiniMax面向全球举办了M1技术探讨会。作为中国团队,我们很高兴组织发起与全球学者的开放技术探讨。现场,来自十几个国家地区的观众从世界各地加入,与M1团队和全球学者进行了技术交流。
M1团队与来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾在模型架构创新、RL训练、长上下文应用等领域探讨了当前的前沿话题。嘉宾详见:
首先需要定义模型的基础能力。一个比较实用的定义是,对于给定的上下文长度,模型在一组特定问题上,在无限次尝试下的通过率(pass@k, k→∞)是多少。如果这个通过率等于1,就表示这个模型能解决这类问题。如果通过率等于0,就表示模型解决不了。如果模型的生成长度,即模型思考过程的长度是无限的,RL什么也改变不了。根据定义,如果你有无限的上下文长度,那么所有能用自然语言表述的问题,理论上都可以通过有限次的采样尝试来解决。
如果针对一个有限上下文长度,RL是否能赋予模型新能力?答案是:能。因为RL所做的是改变模型输出的分布。预训练后,模型可能需要至少10W个token才能解决某个问题,但经过RL微调后,它可能只需要10K个token。如果模型有限上下文长度是50K个token,那么RL的确赋予了模型新能力。
在有限上下文长度下, pass@k 是一个好的衡量指标。K的取值很重要,这取决于如何定义模型能力,如果定义是“模型至少有一次能解决这个问题”,那么应该用尽可能大的k来衡量pass@k;但如果定义是“模型能否在4次尝试内解决问题”,那应该去衡量 pass@4。
目前 Reward 是RL scaling 的核心瓶颈,特别是如何为那些不基于结果的奖励(non-outcome-based reward)进行建模,这是全世界都还感到困惑的地方。比如,人类可以从别人写的一段文字或反馈中获得正面或负面的感受,但我们目前并没有很好的方法来对这种主观感受进行建模。
目前很多视觉推理范式,核心大都集中在文本形式的思维链上,而视觉部分固化为一个 ViT编码器,没法让模型在编码图像上花费更多计算资源。而像 Pixel Reasoner 或其他一些工作,正试图帮模型重新审视图像的特定区域,并对其进行重新编码,从而在关键区域上投入更多算力。
但这并不是一个非常本质的提升模型能力的方法,在现阶段更像是一个权宜之计。因为现有的视觉编码器太弱了,无法很好地处理高分辨率图像,所以才尝试用zoom-in或其他操作来操纵图像表示,然后从输入中重新调用它,并在此基础上进行推理。在现阶段,大多数工具,比如zoom-in、重新调用帧或高亮显示,实际上都只是在增强感知能力。
也存在一些更复杂的工具,能从根本上改变图像,比如使用图像生成技术。这种做法就已经超越了单纯增强感知的范畴,比如在几何问题中画辅助线。最近还没太多这方面的成功案例,但如果有人能设法让这种方法奏效,那它将是“用图像思考”的一个更强大版本。
我们仍然需要解决根本的瓶颈问题:如何更好地编码视觉像素,以及如何以更好的方式在潜在空间(latent space)中进行视觉推理——注意,不是在实际的像素空间,而是在抽象的潜在空间。
Latent reasoning可能是一个非常好的机会。很多视觉推理,特别是在机器人或具身智能领域,真的需要在空间中思考。在这些涉及空间感的场景下,文本推理就不是一个好方法,很多推理过程是隐式的,无法被清晰地表述或言语化。
长上下文在Agent工作流中有巨大潜力。我们另一个客户正在构建复杂的智能体系统,长上下文窗口对他们来说是真正的game-changer。Agent完成某个任务时,能够将整个代码库、API参考文档、历史交互数据等等,全部一次性喂给它。这种任务你不能分几次调用来处理,因为当你让智能体完成任务时,它掌握的关于这个项目的信息越多,产出的质量就越高。
我们有望从目前在大多数情况下,只能处理相当孤立任务的智能体,发展到那些能够管理复杂项目、同时保持完整上下文感知的智能体。
对于Nebuis的客户,M1这样超长上下文模型的真正价值在于解锁了全新的企业级应用场景。这些场景以前用分块处理策略来解决,非常繁琐,甚至几乎不可能。
例如,一个法律行业客户需要把文件一块一块地喂给大语言模型,并用一些窍门来优化检索和上下文管理。这样问题在于,可能错过埋藏在某个随机法律文件某一页中的关键细节。而有了1M token的上下文窗口,就可以一次性处理整个案件历史、所有相关判例以及所有其他信息源,这无疑能提升了服务质量。
Writer是一家服务于全球企业级客户的公司,长上下文模型在企业级应用需求非常广泛。它被应用得最多的领域之一是法律合规分析。比如,分析冗长的合同、电子健康记录或公司年报,从中提取关键条款、识别风险,然后附上引文进行总结,需要非常巨大的上下文窗口。另一个领域是客户研究洞察。比如,总结大量的调查问卷回复或研究论文,以发现其中的主题,并提取一些见解。
长上下文模型也被大量用于收入与报告相关的业务。比如,录入大量的项目招标书,从Salesforce中拉取数据,然后自动起草第一版的回应;或者处理一些基金报告,这需要将内部研究与第三方市场数据结合起来。还有技术支持与知识管理领域。这是每个开发者的负担——对工单进行分类,更新内容管理系统,或者为已有的工作流发布内容。要让智能体在这个领域里运作,就需要长上下文能力。
Q: 混合线性注意力如何影响使用RL的推理模型的性能?
A: 在训练过程中,当我们们扩展到可处理数万 token 上下文长度的模型时,遇到了重大问题:RL 训练停滞不前,奖励信号在仅几百步后就不再增长。研究后,我们发现问题在于,线性注意力架构在这种规模下固有的训练不稳定性。这导致了一些问题,比如某些层激活值爆炸等,并使模型在训练和推理时的行为出现了严重错位。识别并修复了这个 bug 之后,我们才成功地使用RL训练该模型。
这个问题,也使得我们发现混合注意力的一些根本性权衡:它效率极高,单位 token 的计算成本非常低,但通常需要完成更多的 token (即更长的推理路径) 才能达到与 full attention 模型相同的性能。然而,我们的工作证明了,通过适当调整的RL以及合适的推理时算力,混合注意力模型确实能媲美full attention架构的性能。
这对未来架构设计的一个关键启示,是评估方法的重要性。为了公平地比较混合模型与其他模型,我们应该基于在给定任务下、固定总计算预算内的性能来进行评估,而不仅仅是比较固定输出长度下的效果。这提供了一个更全面、更能反映模型真实效率和能力的视角。
Q: 推理模型是否已经具备了System 2推理和自我反思能力?
A: System 2推理和自我反思,可以被理解为从大语言模型基本原理中涌现出的、可被观测的模式。
首先其核心驱动力,是有效利用更大的计算资源,即更长的输出,来获得更好性能的能力。我们观察到的高环推理能力,是“扩展这些资源后的直接结果,而非其根本原因。本质上,为模型提供更多的计算能力去“思考”,使得这些复杂的模式得以涌现。
其次,这种高级推理可以被看作是一种自动化的Prompt Engineering,对于数学或编程等复杂任务,模型学会了生成自己的内部思考过程,这实际上取代了人类提供详尽、分步式指令的需要。
对于写作等任务,模型在思考过程中会先对问题进行分析,并对写作步骤进行专业化拆解,它会独立地执行诸如规划和对问题进行更深层次分析等操作。这使模型能够够通过创建详细推理路径来“像专家一样思考”。
因此 System2 推理和自我反思,实质上是如何高效地利用并扩展计算预算 (computation budget),同时也是模型自动演化用户问题的体现。
自创立以来,MiniMax 即以“与所有⼈共创智能”为使命,致⼒于推动⼈⼯智能科技前沿发展,实现通⽤⼈⼯智能 (AGI)。我们将继续坚持做上规模更难的事,坚持底层架构和算法创新,与合作伙伴⼀起为全球开源社区持续贡献。
Intelligence with Everyone.