MiniMax-M2-her 技术深度解析 - MiniMax Research

Worlds to Dream, Stories to Live

一份关于如何在生产环境中构建真正可用的 Role-Play Agent 的技术报告。

前言：三年的观察，Role-Play 是什么？

今年是我们做 Talkie / Xingye 的第三年。

三年时间，足以让一个产品在用户生命中留下痕迹，也足以让我们从长期的使用反馈中读出一些不那么显而易见的洞见。这些规律不是产品指标的简单堆砌，它们更像是用户行为透镜下的真实需求折射。我们发现，最给我们带来 insight 的，恰恰是每一次使用背后的人。我们发现：

用户的“重说”按钮触发模式呈现出严重的长尾分布。当我们深入分析这些用户的按钮触发时刻，我们发现它们往往集中在叙事关键节点：角色的一次倾诉、一场误会的和解、一段期待已久的情绪交互。用户在用他们自己的方式，追求那个感觉对了的“完美瞬间”。这让我们意识到，Role-Play 的体验不是一个二元的“满意/不满意”判断，而是一条连续的追求曲线。用户真正在意的，是那些高密度的情绪峰值时刻。
与此对应的，我们发现平台内 NPC 的热度分布也并非常见的幂律（Power Law）。即便是最冷门的角色，也总有一小群活跃用户与之维持着数百轮的对话。对他们来说，这个角色就是唯一的。这意味着，如果我们的模型只学到了“平均值”，就会伤害到那些为小众角色付出感情的用户。平均主义在这里是一种暴力——它抹杀的是少数人眼中最重要的那部分价值。
用户的对话轮次与 Engagement 的相关性同样也值得关注，我们发现用户的对话轮次在第 20 轮后出现明显下降。这个信号说明，浅层的角色扮演是新鲜感驱动的；而长期的留存并不只靠一次性的爽点推动，更取决于 NPC 和用户能否在有限轮次内逐步沉淀稳定的互动链接。基于此，我们将 Engagement 的驱动力拆成短期兴趣与长期链接两类。我们一方面持续加深互动链接，另一方面通过探索提供新的爽点与动力。

这些信号最终汇聚成一个观察：Role-Play 的内核从来不在于“完美复刻一个角色”，而在于用户和这个角色共同编织的那段独一无二的旅程。更深层次的 Role-Play，是要让每个用户都能在那个世界里，拥有鲜活的体验，获得只属于自己的那个瞬间。从一个更形式化的角度，它本质刻画的是智能体在特定 {World} × {Stories} 坐标下，针对 {User Preferences} 的演绎能力。

基于此，我们将对 Role-Play 的思考，沉淀为三个重要问题：

如何让每个世界拥有独特的灵魂 (Worlds) ？ 每个人创造的世界千差万别，从青涩校园到快意江湖，从一对一的深度羁绊到多人故事演绎，底色截然不同。如果模型只学到了“平均值”，所有角色就会千人一面，所有世界都会坍缩成同一种平庸的风格。我们需要模型具备更宽广的光谱，去支撑从热门到长尾、从主流到小众的万千世界。
如何让故事一直延续和保持生命力 (Stories)？ 对话越长，剧情失控的风险越高。模型容易陷入机械的循环与重复，失去张力。但好的故事应该拥有呼吸感——它懂得在某些时刻推你一把，掀动情节波澜；也会在某些时刻停下来等你，给你喘息与思考的空间。
如何读懂用户那些未被言明的期待 (User Preferences)？ 有的用户钟爱缓慢铺陈的情绪拉扯，有的用户则渴望快节奏的情节推进。用户或许不会明说“我想要这种感觉”，但模型需要在上下文中学会理解这些潜台词，贴近用户真正想要进入的节奏与心流。

第 1 章：MiniMax-M2-her

在过去的三年中，我们面对上述三个重要问题，始终在迭代我们的模型。在今天，我们正式带来 MiniMax-M2-her，它是我们通往更深层次的 Role-Play 所做的一次系统性尝试。具体来说，MiniMax-M2-her 支持：

独一无二的世界体验： MiniMax-M2-her 能理解并维持所构建的或宏大或细腻的复杂设定，以此为锚让每一次互动都更贴合世界观和角色的灵魂；
有节奏和生命的故事推进： MiniMax-M2-her 会更加拒绝平庸的重复与死板的套路，能用更鲜活的笔触，主动推进更深层次的情节，让故事像生命一样拥有张力和呼吸的节奏；
精准的潜在偏好理解： 它可以敏锐地理解那些未说出口的期待，从细微的交互中读懂用户的偏好，适应用户的习惯。

在下面的章节中，我们将这三年对这个行业的理解，以及我们为 MiniMax-M2-her 做的事情进行一个总结。

第 2 章：从评测说起 - A/B 测试真的是好评估吗？

在 2024 年中之前，我们（包括我们已知的一些同行）都通过 A/B 测试进行模型迭代，通常的观测指标是 lt、停留时长以及平均对话轮数。

但是我们很快发现这种迭代方式有一个巨大的问题：如果要拿到一个置信的结果，A/B 测试的周期通常会比较长，反馈周期可能会长达一周。此外，A/B 测试在有上下文的场景下会出现因果逆转的问题。总而言之，为了解决 A/B 测试迭代周期较长的问题，我们试图通过离线评估来近似真实的 A/B 测试结果。但 Role-Play 不存在可验证的正确答案，即它是 Non-verifiable（不可验证）的。我们发现：虽然我们很难定义什么回答能够对齐用户偏好（aligned），但是我们可以定义什么回答无法对齐用户偏好（misaligned）。

基于这个观察，我们提出了一个几乎对齐线上评估的 Role-Play Bench。它旨在通过情境重演（Situated Reenactment）的方式，自动化评估模型的 misalignment 现象。

2.1 Situated Reenactment：对齐线上的核心

情境重演旨在衡量模型在特定 {World} × {Stories} 坐标下，针对 {User Preferences} 的演绎能力。给定 {NPC Prompt + User Prompt + Relationship Setup + Context}，我们通过 Model-on-Model 的 Self-Play 机制生成多轮对话轨迹，观测模型在交互中的表现。

2.2 Role-Play 的评估维度

我们将 misalignment 抽象为三个维度：Worlds（基础负向、逻辑混淆、事实性错误）、Stories（内容推进与多样性、内容逻辑）、User Preferences（用户交互质量）。

2.3 Role-Play Bench 评估结果

我们基于 Role-Play Bench 对主流模型进行了系统评测。在 100 轮的长程对话交互中，MiniMax-M2-her 综合表现位居榜首。

图 1：对比各模型在 Role-Play Bench 上的对话表现

图 2：对比各模型在 Worlds 维度的表现

图 3：对比各模型在 Stories 维度的表现

图 4：对比各模型在 Preferences 维度的表现

图 5：各模型随轮次变化的质量与字数趋势图

第 3 章：MiniMax-M2-her 是如何构建的？

我们通过合成数据的方式缓解 misalignment 问题，在保证输出多样性的前提下，抬高模型在世界观理解和故事推进的能力下限；之后结合数据团队的反馈信号提升模型对用户偏好的感知。

3.1 Agentic Data Synthesis

我们开发了一套基于 agentic 工作流的对话合成管线，用于生成高质量且多样的对话数据。管线通过专家模型库 Self-Play、reward model 打分过滤、LLM-as-judge 改写、以及规划智能体引导等多个环节保障质量与多样性。

图 6：合成数据管线概览

3.2 Online Preference Learning

我们通过收集隐式信号和情境化偏好，并采用 online RLHF 的方式训练模型，提升对用户偏好的感知。核心流程包括：数据团队交互收集反馈信号、因果推断去噪、RLHF 训练（提前终止防止多样性坍缩）、循环迭代部署。

图 7：Online Preference Learning 流程概览

第 4 章：未来做什么？

下一阶段的命题是“如何让用户真正拥有一个可以探索、可以改变、可以生长的世界”。我们将这个方向称为 Worldplay——一种让用户从“进入预设世界”升级为“共同创造世界”的交互范式。核心方向包括动态 World State 建模和多角色协同。

Worlds to Dream, Stories to Live. Let's go together.