MiniMax-M2-her 技术深度解析

AIRole-PlayRLHF大模型角色扮演合成数据评测

Worlds to Dream, Stories to Live

一份关于如何在生产环境中构建真正可用的 Role-Play Agent 的技术报告。

前言:三年的观察,Role-Play 是什么?

今年是我们做 Talkie / Xingye 的第三年。

三年时间,足以让一个产品在用户生命中留下痕迹,也足以让我们从长期的使用反馈中读出一些不那么显而易见的洞见。这些规律不是产品指标的简单堆砌,它们更像是用户行为透镜下的真实需求折射。我们发现,最给我们带来 insight 的,恰恰是每一次使用背后的人。我们发现:

这些信号最终汇聚成一个观察:Role-Play 的内核从来不在于“完美复刻一个角色”,而在于用户和这个角色共同编织的那段独一无二的旅程。更深层次的 Role-Play,是要让每个用户都能在那个世界里,拥有鲜活的体验,获得只属于自己的那个瞬间。从一个更形式化的角度,它本质刻画的是智能体在特定 {World} × {Stories} 坐标下,针对 {User Preferences} 的演绎能力。

基于此,我们将对 Role-Play 的思考,沉淀为三个重要问题:

第 1 章:MiniMax-M2-her

在过去的三年中,我们面对上述三个重要问题,始终在迭代我们的模型。在今天,我们正式带来 MiniMax-M2-her,它是我们通往更深层次的 Role-Play 所做的一次系统性尝试。具体来说,MiniMax-M2-her 支持:

在下面的章节中,我们将这三年对这个行业的理解,以及我们为 MiniMax-M2-her 做的事情进行一个总结。

第 2 章:从评测说起 - A/B 测试真的是好评估吗?

在 2024 年中之前,我们(包括我们已知的一些同行)都通过 A/B 测试进行模型迭代,通常的观测指标是 lt、停留时长以及平均对话轮数。

但是我们很快发现这种迭代方式有一个巨大的问题:如果要拿到一个置信的结果,A/B 测试的周期通常会比较长,反馈周期可能会长达一周。此外,A/B 测试在有上下文的场景下会出现因果逆转的问题。总而言之,为了解决 A/B 测试迭代周期较长的问题,我们试图通过离线评估来近似真实的 A/B 测试结果。但 Role-Play 不存在可验证的正确答案,即它是 Non-verifiable(不可验证)的。我们发现:虽然我们很难定义什么回答能够对齐用户偏好(aligned),但是我们可以定义什么回答无法对齐用户偏好(misaligned)。

基于这个观察,我们提出了一个几乎对齐线上评估的 Role-Play Bench。它旨在通过情境重演(Situated Reenactment)的方式,自动化评估模型的 misalignment 现象。

2.1 Situated Reenactment:对齐线上的核心

情境重演旨在衡量模型在特定 {World} × {Stories} 坐标下,针对 {User Preferences} 的演绎能力。给定 {NPC Prompt + User Prompt + Relationship Setup + Context},我们通过 Model-on-Model 的 Self-Play 机制生成多轮对话轨迹,观测模型在交互中的表现。

2.2 Role-Play 的评估维度

我们将 misalignment 抽象为三个维度:Worlds(基础负向、逻辑混淆、事实性错误)、Stories(内容推进与多样性、内容逻辑)、User Preferences(用户交互质量)。

2.3 Role-Play Bench 评估结果

我们基于 Role-Play Bench 对主流模型进行了系统评测。在 100 轮的长程对话交互中,MiniMax-M2-her 综合表现位居榜首。

图 1:对比各模型在 Role-Play Bench 上的对话表现

Role-Play Bench 评估结果

图 2:对比各模型在 Worlds 维度的表现

Worlds 维度表现

图 3:对比各模型在 Stories 维度的表现

Stories 维度表现

图 4:对比各模型在 Preferences 维度的表现

Preferences 维度表现

图 5:各模型随轮次变化的质量与字数趋势图

质量与字数趋势

第 3 章:MiniMax-M2-her 是如何构建的?

我们通过合成数据的方式缓解 misalignment 问题,在保证输出多样性的前提下,抬高模型在世界观理解和故事推进的能力下限;之后结合数据团队的反馈信号提升模型对用户偏好的感知。

3.1 Agentic Data Synthesis

我们开发了一套基于 agentic 工作流的对话合成管线,用于生成高质量且多样的对话数据。管线通过专家模型库 Self-Play、reward model 打分过滤、LLM-as-judge 改写、以及规划智能体引导等多个环节保障质量与多样性。

图 6:合成数据管线概览

合成数据管线概览
角色混淆示例
质量保障流程

3.2 Online Preference Learning

我们通过收集隐式信号和情境化偏好,并采用 online RLHF 的方式训练模型,提升对用户偏好的感知。核心流程包括:数据团队交互收集反馈信号、因果推断去噪、RLHF 训练(提前终止防止多样性坍缩)、循环迭代部署。

图 7:Online Preference Learning 流程概览

Online Preference Learning 流程
信号选择和去噪

第 4 章:未来做什么?

下一阶段的命题是“如何让用户真正拥有一个可以探索、可以改变、可以生长的世界”。我们将这个方向称为 Worldplay——一种让用户从“进入预设世界”升级为“共同创造世界”的交互范式。核心方向包括动态 World State 建模和多角色协同。

Worlds to Dream, Stories to Live. Let's go together.