MiniMax Agent Team: 为长程任务,持续进化而生
今天我们介绍 MiniMax Agent 的整体升级,我们将升级后的 Agent 起了个新名字:Mavis — MiniMax as a Jarvis,你的 AI 管家。
这次进行了以下更新:
- 上线 Agent Teams。MiniMax Agent 桌面端现在支持多个 Agent 并行工作,你可以创建不同角色的 Agent,让它们组成一个团队协作完成任务,适合那些又长又复杂、一个 Agent 搞不定的任务。
- TokenPlan 和 Agent Plan 合并。一份订阅,CLI、API、Agent 全打通,M2.7、音乐、视频、语音所有模型都包含在内。Credits 额度在 Agent 和 API 之间可以共享,用法更灵活。如果你之前同时订阅了两个 Plan,会额外赠送一个月会员

此次,我们想跟大家分享我们做 Agent Teams 背后的思考:我们是怎么设计 Agent team 的?是为了解决什么问题?我们付出了什么成本?用户该什么时候该用 Agent Team、什么时候没必要用?
我们先回到当前单体Agent是怎么执行的。
“帮我整理一篇关于Agent Team 的长文,信息要基于2026年的最新数据,分别交付 Markdown 和 HTML 版本。”
在过去,我们会把这句话交给一个强大的 AI 助手。它会立刻开始回答,把一大段文字推回聊天窗口。这种体验很顺,但当任务的交付质量的要求变高时,问题也会出现:资料谁来查?事实谁来核?文档谁来排?如果今天做完了,下次系统还会不会记得这次踩过的坑?
1. 为什么要有Agent Team
虽然可以通过迭代Skill,让单体Agent在任务中出色交付,但一个Agent完成的结果交付必然意味着它即是裁判又是选手。这个矛盾就是我们建设Agent Team的出发点。
Agent Team 把一个原本压在单个Agent的复杂任务,改造成一个有前后台、有验收、有记忆的工作过程。用户仍然只发出一条消息,但背后的Agent Team系统会判断是否需要拆分,哪些角色可以并行,哪些结果必须验证,哪些经验应该沉淀。
继续我们的场景。
“帮我整理一篇关于Agent Team 的长文,信息要基于2026年的最新数据,分别交付 Markdown 和 HTML 版本。”
单 Agent 可能能够顺利完成这个任务,像一个坐在用户旁边的同事。用户问“这段话怎么润色”,它可以马上改;“这个地方格式有问题”,他马上去确认。但这里暴露了几个问题:1、用户如果不指挥,Agent就会停住,需要用户不断的执行“确认”、“继续”等指令。
- 单 Agent 会在用户意想不到的时候停下来。
用户往往会遇到Agent要干7个事情,但是它完成3个改动后就停下来开始汇报了,说“我已经完成了123的修改,是否需要继续让我做剩下5个修改”。
这是因为模型普遍存在上下文焦虑,对于超长任务的训练本身需要投入大量的金钱、时间成本和算法优化。模型对于一个任务什么时候可以停止的判断是模糊的。


- 单 Agent 会越来越笨,特别在长任务方面退化明显。
用户往往会有体感,随着Agent的执行,它从“一个聪明助手”变成“我在带一个很忙但容易分心的人”。用户不断追问:刚才那条要求还记得吗?你为什么又把研究任务写成产品营销了?只要其中一个环节走偏,后面的内容就会沿着偏差继续生成。更麻烦的是,单 Agent 很难天然形成“相互制衡”。它可能很真诚地自检,但它检查的仍然是自己刚刚构造出来的现场。


- 单Agent同时也无法快速响应长周期任务。
特别是在IM场景(通过通讯软件控制Agent的场景)下,用户的耐心非常短。用户从IM发出一条消息,期待的是几秒内得到回应。哪怕任务很复杂,用户也希望对方先回复:“我知道了,我会怎么做,完成后回来找你。”不希望盯着一个对话框等十分钟、半小时甚至更久,只为了确认任务有没有开始。“我的Agent怎么不回我了”是我们收到的最大量的用户反馈。
Agent Team 则能提供不同的体验。主 Agent 先快速响应用户:收到任务,确认目标,说明会在后台拆分执行。把任务拆成多个章节包或多个版本,并行执行。
用户不必等待每个子步骤完成,可以在关键节点收到汇报:任务已开始、遇到阻塞、需要决策、已经完成。
也可以随时和主Agent聊天:“我刚刚还有一个新的想法,你顺便帮我去研究一下”, 主Agent可以随时响应:“好的,我现在再开启一组Agent研究,有新的进展随时汇报。同时和你交代一下,已经在执行的任务中已经完成了2/5,未完成的3个任务中有2个已经进入核查阶段,还有一个任务我会继续盯着。”
像极了一个能秒回用户微信消息的贴心好友。


- 跳出某一个具体的任务,我们自然要接受用户需求的多样性和不同领域的角色的分工
一个用户可能在同一天要求 Agent 写代码、查资料、做 PPT、整理会议纪要、读 PDF、处理表格、处理报销、规划项目、生成周报。每类任务的输入结构、工具权限、质量标准、风险等级和交付格式都不同。
单 Agent 可以通过 Skill 暂时扮演不同角色,但角色扮演不等于角色分工。真正的分工从上下文方面至少包括四个维度:工具不同、上下文不同、记忆不同、Skill不同。从结果上看,输出协议不同、验收标准也不同。假设我们已经在上文中。构建出了Agent Team的系统,那么不同职责的Agent能更高频的接触到自己领域的任务,将踩到的坑形成记忆,将有价值的动作形成Skill。像一群和用户长期合作的同事,在各自的职能上越变越好。


2. 当前行业中的 多Agent 合作实践
产品 / 引擎 | 多 Agent 如何协作 | 优势 | 局限性 |
|---|---|---|---|
OpenAI Agents SDK | 一个 Agent 可以把任务交给另一个 Agent 继续处理,也可以临时调用另一个 Agent 获取专业结果,然后自己继续完成任务。系统负责保存对话过程、检查输入输出是否合规,并记录执行过程。 | 协作方式清晰,适合把任务分给不同专业 Agent; 内置安全检查和过程记录,便于产品化; 适合客服、业务流程、工具调用类场景。 | 多个 Agent 通常按顺序接力,天然并行能力有限; Agent 运行在同一套框架内,隔离性较弱; 更适合产品内协作,不适合大规模独立任务执行。 |
LangGraph | 把多个 Agent 放进一个明确的流程中,每个 Agent 负责其中一步。可以由一个主管 Agent 判断下一步交给谁,也可以把复杂任务拆成多层团队。系统会保存中间状态,便于暂停、恢复和人工介入。 | 流程可控,适合复杂业务; 能表达分支、循环和多层任务; 支持保存进度和恢复执行,适合长流程应用; 交付结果可追溯和排查,适合降低成本; | 搭建和调试成本较高; 多个 Agent 主要在同一系统内协作,独立运行能力较弱; 复杂流程需要较强的工程设计。 |
OpenCode | OpenCode 本身主要是单 Agent 产品,不主打多个 Agent 互相协作。它的核心价值在于让不同命令、技能、权限和会话走同一套执行路径,因此可以作为外部多 Agent 系统里的底层执行能力。 | 命令体系统一,权限控制细,适合做可靠的编码 Agent; 人类操作和 Agent 操作可以复用同一套规则;适合作为更大系统里的执行引擎。 | 内部没有完整的多 Agent 团队机制; 不负责多个 Agent 的分工、通信、验收和调度; 如果要做团队协作,需要外部系统补齐。 |
OMC / oh-my-claudecode — Team Pipeline | 多个 Agent 按阶段接力:先制定计划,再整理需求,再执行,再验证。如果验证不通过,就进入修复阶段,修复后重新执行或重新验证,直到完成或失败。 | 过程完整,覆盖计划、需求、执行、验证、修复; 验证失败后能继续修,不会停在半成品; 适合复杂代码任务。 | 流程较重,简单任务使用成本高; 依赖终端环境和多个后台窗口; 阶段固定,想要临时调整方案的成本较高。 |
Claude Code — Teams 机制 | 一个 Lead Agent 创建团队,给多个 Teammate 分配任务。每个 Teammate 有独立上下文、模型和权限,可以单独执行任务。Lead 负责派发任务、查看状态、发送消息、关闭成员,Teammate 完成后会回报状态。 | 和 Claude Code 深度集成,使用体验连贯; 成员之间上下文隔离,适合多人分工; 支持任务管理、消息沟通、空闲通知和关闭确认,团队协作能力比较完整。 | 任务安排主要依赖 Lead Agent 自己判断,稳定性受模型影响; 复杂依赖关系不够明确; 部分运行方式依赖终端窗口,跨会话长期运行能力有限。 |
OMC Ralph Loop / Ralph Mode | Ralph 负责让任务持续推进。它通常配合并行执行和验证流程:先让多个执行单元推进任务,再反复检查结果;发现问题就继续修,直到通过或达到上限。 | 强调完成质量,适合需要反复打磨的任务; 能把执行和验证连接起来,减少“做了一半就结束”的情况; 适合复杂开发和修复类任务。 | 运行时间和成本可能较高; 如果检查标准不清,可能反复修但效果有限; 必须设置迭代上限、成本上限和停止条件。 |
OMC Autopilot + Ralph | Autopilot 把任务拆成完整链路:先分析需求和技术方案,再制定实施计划,然后执行,之后由 Ralph 持续补完和修复,最后进入构建、检查、测试和多角度验证。 | 覆盖从需求理解到最终验证的完整过程; 适合复杂任务自动推进; Ralph 能在执行后继续修复问题,提高交付质量。 | 系统流程较长,适合复杂任务,不适合轻量修改; 每个阶段都依赖前一阶段质量,前面理解错了会影响后续; 需要明确验收标准,否则后期验证效果会下降。 |
3. MiniMax Agent Team:在约束多Agent循环的基础上,给予每个Agent更高的自由度
MiniMax的Agent Team是一个由某个主Agent牵头,把复杂任务拆成多个可并行的任务分配给一批Agent并发执行,自带对抗性的质量门禁的多Agent系统,是确定性的代码逻辑驱动的Agent循环。我们受到了Raplh-Loop和Harness思想的启发,意识到大模型的上下文是宝贵的,通过拆分任务和职责分类,让每个环节的Context隔离,提高整体的Agent产出质量。


- Leader、Worker、Verifier 的基本协作流
为了让多 Agent 从概念变成可用产品,需要一个基本协作流。我们把它简化为三类角色:Leader、Worker、Verifier。
Leader 负责把用户目标转化为任务结构。
Worker 负责执行具体子任务。不同 Worker 可以拥有不同工具、上下文和输出要求。有的 Worker 做资料检索,有的做代码编辑。Worker 的价值在于专业化:角色越清楚,Worker 的输出越容易被复用、比较和检查。
Verifier 负责把“完成了”变成“可以交付”。它可以检查事实来源、覆盖清单、风险边界,也可以对 Worker 的结果提出修改意见。体现了Agent Team的设计逻辑:WorkerAgent 与 VerifierAgent 是对抗关系。双方都以运行结束为目标,但一方运行结束会引发另一方的运行开始。类似企业中的研发和质量部门,通过多轮对抗式迭代,交付高质量的结果,无需CEO(人类用户)事无巨细的介入。


- 相比只能创建任务、获取结果一次收发的Task工具,Agent Team是一个可随时互动的团队。
传统 Task 工具通常发生在模型工具调用层:主 Agent 调用一个 task、dispatch 或 spawn 类工具,传入一段 prompt,等待子 Agent 返回一段文本或摘要。这类机制适合短生命周期、低风险、局部探索型任务,例如让另一个模型快速搜索文件、归纳材料、检查一个思路或生成候选答案。虽然目前存在后台运行的SubAgent,但本质Agent之间的通讯还是一次输入输出,无法多轮对话,实时上报遇到的问题和矛盾。
为了让Team稳定运行,我们选择了可靠的状态机去对每个Agent的运行周期进行管理,一个运行周期就是一个Session,这个状态机就是Team Engine。Team Engine会按照producing、verifying、done去管理每一个任务。当verifying未通过时,Team Engine会重新唤起producing节点继续修改。Leader在这个过程中会即会收到Team Engine的最新状态汇报,也可以主动确认具体的任务细节,甚至可以随时向正在运行的producing、verifying 的Agent发送补充 prompt。协作关系不再被限制为一次函数调用,而是变成主动推送、按需查询的多轮交互。
每一次Agent Team的运行都是有长期价值的。本次执行的经验也可以沉淀为记忆、Skill,让每个具体的Agent更主动地去了解如何与用户协作,高效完成任务,也支持所有的Agent更了解用户。


- Agent 间通讯设计:Agent 与人类同权
我们在设计和思考Agent应如何相互协作时最直接的思路就是去思考人和Agent是如何协作的。用户可以对Agent在前端交互上进行 prompt、spawn、abort、kill等操作,那么意味着Agent自己应也需要有能力对另一个Agent完成上述动作。我们将用户可以对Agent的操作抽象为接口,那么真实操作这些Agent的渠道就可以是用户、其他Agent或AgentTeam的引擎。


当然,这种设计必须保持边界:平权不意味着 Agent 获得无限权限,也不意味着人类退出责任链。恰恰相反,只有当 Agent 和人类共享同一个可审计协作面,权限、责任和风险才更容易被看见。
3.1. 核心场景一:接入 IM,异步执行快速响应
IM 的交互约束很特别。用户发消息时,预期是秒级反馈;但很多任务天然需要分钟级甚至小时级执行:研究资料、整理会议纪要、生成 PPT、跑代码测试。如果系统让用户一直等最终结果,体验会变成“Agent在聊天框里失踪了”。
单 Agent 在这里容易陷入两难:要么为了快速回复,只给一个浅答案;要么为了完整完成任务,让用户长时间无反馈。更糟的是,IM 对话还会继续发生。用户可能中途追加要求、切换话题、问另一个问题。如果长任务和当前对话绑在同一个上下文里,系统既难以保持响应速度,也难以保证后台任务不被新消息污染。
这和 Google A2A 官方协议中对 long-running tasks、状态更新、human-in-the-loop 的设计原则有呼应。Anthropic Managed Agents 官方博客提出“session 不等于模型 context window”,长任务需要可恢复的 session log 作为外部上下文对象。
说明行业共识正在形成:IM 异步执行的底层逻辑:当任务跨越多轮消息、多个工具、多个 Agent,不能依赖某个模型当前上下文一直不丢。系统需要把任务状态、事件日志、文件产物、决策记录保存为可恢复对象。Agent 协作是带状态的长期任务。

3.2. 核心场景二:Coding Harness
AgentTeam的项目很大程度上受到了Harness思想的启发和激励。Harness强调的事情是在基础的写代码基础上更进一步的思想:Agent不仅需要写代码,还需要跟进开发的全流程,把代码要有分支,执行要有沙箱,修改要有 diff,测试要能重跑,审查要有记录,失败要能回放,必要时还要能把任务拆给不同角色。让Agent运行的停止条件绑定到有确定性可观测的外部系统。
- Coding 任务下 developer / tester / reviewer 分工
一个工程化 Coding Harness 至少包含四类角色。
Leader 是控制面,它首先判断任务是否值得启动 Team:改错别字、替换常量可能单 Agent 或脚本更便宜;跨文件理解、多方案并行比选,才更适合 Team。它还要决定拆解粒度:是否先读代码,是否并行探索方案,是否先写复现测试,失败后重试几次,什么时候升级给人类。
Developer 负责实现,它有一个明确工作目标:需求、相关文件、项目约束和禁止事项。它的输出也不只是自然语言说明,而包括 修改理由、潜在风险和验证建议。
Tester 负责把“看起来能运行”变成“有外部证据”。它要找现有测试入口、压缩失败日志,并在必要时补充最小复现。关键是 tool-grounded:验证结果来自命令、测试或可执行检查。
Reviewer 不等同于 Tester。测试回答“是否通过已知验证”,Review 更关心“是否应该这样改”。它要检查抽象边界、兼容性、错误处理、依赖引入、权限扩大、日志是否暴露敏感信息。Reviewer 也可以分工并发:普通 reviewer 看可维护性,security reviewer 看输入/凭证/网络边界,domain reviewer 看业务语义。
- 自动化测试、代码审查和人工验收如何接入
第一层是自动化测试和静态检查。Harness 把 test、lint、build、format check 视为一等公民。Developer 修改后,Tester 执行验证;失败时,Leader 判断是让 Developer 修复、让 Tester 补日志,还是把环境问题上报。
第二层是代码审查。Reviewer Agent 可以先做自动初审,提前发现未使用变量、异常分支遗漏、公共 API 破坏、危险 shell 调用、secret 日志、越界改文件等问题。
3.3. 核心场景三:并行信息检索和研究
单 Agent 会遭遇研究速度慢、上下文被污染或危险注入、证据链迷失在上下文中、调研方向有偏向性等问题。Agent Team 的价值,是把研究过程拆成并行信息通道,再通过 verifier 和 synthesizer 合并为结构化结论。重点设计可信研究流水线,保证研究效率高的同时能跳出单Agent 的研究思路,从不同角度、正反面进行信息的搜集和确认。
- 独立 verifier 如何降低引用错误和事实幻觉
Verifier 首先检查来源可复查性。正式来源应尽量使用稳定 URL:官方页面、会议页面、作者博客。而搜索缓存、聚合页、只能作为线索,不能支撑正式结论。Verifier 还检查来源状态是否过期,是否存在反面证据否认真实性等。

3.4. 核心场景四:流水线式办公文档写作
单 Agent 做文档时,最容易出现的错觉是:只要模型会写,就等于能交付。用户说“帮我做一份报告 / Excel / PDF”,单 Agent 往往会先生成一大段文本,再尝试一次性排版、检查格式、修错误。短文档还可以靠一次上下文完成;一旦任务变成长报告、正式合同、财务表格,问题就会迅速暴露:内容规划、资料引用、结构一致性、图表对象、页眉页脚、导出质量,都挤在同一个上下文和同一个执行循环里。
- AgentTeam让结果从“能生产”跨越到“能交付”
多 Agent 协作把文档交付拆成多个可验证阶段。Planner 先定义文档目标和结构;Writer 负责正文;Formatter 负责版式和文件对象;Evaluator 独立检查内容、格式和文件完整性。这样的拆分把“文档生成”从一次性文本生成,变成类似 CI/CD 的构建流水线:每一步产出中间件,每一步都有检查,每一步失败都能局部重试。

4. 开发过程中的难点和思考
- Team 合作带来的上下文成本
一组 Agent 协作,会暴露一类新的成本:交接成本、共享、聚合成本。这种成本都不是“模型的Context Window再大一点就能解决”的。
交接成本指的是同样一段信息在不同 Agent 之间需要被重新组织。研究 Agent 收来的几十个网页后交接给写作Agent。写作Agent它需要一份经过初步研究的文档。写作Agent同样也需要交接一个写作结果给格式检查Agent。我们现在的处理方式是把交接物变成:1、可读的交接文件 2、多个Agent的共享留言板文件;Worker 之间通过这些文件的路径加摘要进行不打断的慢通信,避免一口气全部塞到上下文里。
共享成本指的是“给所有 Agent 看到所有信息”的代价。每多一段共享内容,每个 Worker 的每一轮都要为它付 token。当某个Agent执行过程中遇到问题时,他应该通过正确的方式写记忆,进而确保能广播到所有运行的/待运行的Agent的上下文中。我们采用了三种方式来维护这类共享信息:1、Agent内的记忆,此Agent的一次经验,同样的Agent后续执行会收到提示,甚至执行中的Agent也会被立刻通知。2、Agent之间的通讯CLI,Agent有能力直接和其他的运行节点对话,进行打断式的沟通 3、上述提到的白板能力,相比1和2 的主动通知,白板能够支持保存更大量的信息,其他Agent在使用的时候也可以更优雅的按需获取。
聚合成本指的是把多个 Worker 的结果合成一个交付物所需要的工作量。并行收集 10 个版本的资料容易,把它们合成一份事实一致、引用对得上、风格统一的文章很难。Leader 在这一步要做的,往往是“把 10 份合到 1 份”而不是“多调几个人补充”。承认这件事昂贵,是设计 Team 时的第一步。
- 时间 / Token 消耗与结果 ROI 的平衡
多 Agent 在过去的研究里很难和高ROI划等号。论文 Cost of Consensus 在特定模型与同质 debate 设置中声称,消耗可能达到 isolated self-correction 的 2.1–3.4 倍 token,准确率却没有提升甚至更差。这条结论指出一个清楚的事实:没有结构、没有停止条件的“多”,只是把不确定性并行扩散,简单的AI聊天室很难保证最终结果的质量。
ROI 也包括用户的等待。我们虽然已经把长任务异步化、让用户能随时和Leader的Agent沟通,能够降低用户即时的沟通诉求,但是整体任务的交付时间还是变长了,相比单个Agent的一口气做完,Agent Team不可避免需要按顺序执行1234。我们思考了很久如何控制合理的拆分粒度以及平衡大任务效果差、小任务拆太细交付慢的问题。我们相信随着模型智能水平的提高,后台跑Team,完成后主动汇报,就是用任务结构换掉了“同一个对话里盯着 Agent 慢慢生成”的心理成本。多 Agent 的价值在这里和成本一起出现:用户愿意为可验证、可恢复、可审计的结果等更长,前提是过程透明。并且我们相信当用户看到Agent Team完成的高质量结果后,对Agent信任度提高。会更加解放自己的思路,让自己去进行更深刻,更广泛的思考,做一个有人味的思想者,把执行思想和落地结果的任务交给Agent Team。
- Verifier、重试和 Leader decision 的成本
Verifier 是 Team 从演示走向交付的关键。
第一类成本是验证本身。一次代码任务要跑测试;一次研究任务要核对来源、确认引用边界;验证越认真,消耗越高;验证只走个过场,就只剩“看起来通过”的虚假安全感。
第二类成本是重试策略。如果 Worker 一直在“改一点—被 verifier 退回—再改一点”里转圈,整个 plan 会越跑越贵。
第三类成本是 Leader decision 不能被模糊。在高风险动作面前——是否合并代码、是否覆盖线上数据最终判断必须有人类签字。GitHub Copilot cloud agent 的官方文档把整个流程留在 GitHub 内:计划、提交、日志、PR 都可被团队审查;相关 changelog 也提到在 PR finalized 前会进行安全和质量分析。它指出的方向很清楚:Agent 交付的除了结果,还有可回放、可追责的轨迹。
- 多 Agent 系统是 runtime,不是 prompt 编排
离开模型和上下文,回到我们的系统是怎么建设的:多 Agent 经常被简化成“写好几段 prompt /skills 让模型扮演不同角色”。在 我们的真实代码里,这种简化只是最初的演示demo,实际上的代码复杂度隐藏在很多的细节中,只为了让用户有“只要对话就行了”的丝滑体验。Team Engine 需要管理多种复杂对象和状态转化,以保证Agent Team的运行能够足够自动化和可观测;渲染层面要承接人/Agent/Team Engine等多个角色对同一个概念的操作:比如同样是创建一个任务,就需要处理多种来源。渲染的另一头复杂度来自消息的来源。除了用户和Agent的对话内容,还有Agent之间的对话内容、定时任务的消息、Team Engine的定时监控、还有来自IM的用户消息等。背后复杂的软件工程,都是为了用户能够在简洁的界面上浏览被仔细安排过的信息来源。
行业资料也在指向同一方向。OpenAI Agents SDK 的官方说明强调 sandbox、workspace、handoff、tracing;AWS AgentCore 的官方发布把 Runtime、Memory、Identity、Gateway、Browser等列为企业级模块。它们共同提示一件事:Agent 产品的重心正在从“写 prompt”转向“维护控制面”。
承认 Agent Team 是 runtime,会改变产品判断。新功能不能只靠 prompt 修补,要在 runtime 里加事件、加可观测;权限和运行时的约束、写记忆的约束不能只靠 Agent 自觉,要执行恰当的软硬门禁和拦截;把多 Agent 当 runtime 维护,比把它当 prompt 模板维护要重得多,但只有这样才能稳定服务真实工作。
5. 启发
5.1 多 Agent为了更可靠地完成复杂任务
多 Agent 的核心是结构。没有结构的多 Agent 只是更贵的并发;有结构的多 Agent 才是可委派、可并行、可验证的执行系统。
因此判断一个多 Agent 产品是否有价值,不能看它能同时启动多少 Agent,而要看它是否能回答几个问题:为什么要拆分、如何验收、何时停止、失败如何恢复、如何管理记忆。这些问题回答得越清楚,多 Agent 越像生产系统;回答不清楚就越像演示中的群聊。
5.2 Team 的价值取决于复杂度,但ROI不能只看短期。
Team 只是可选项。任务越复杂、链路越长、风险越高、经验越可复用,Team 的收益越可能超过成本;任务越短、越低风险、越确定,单 Agent 或传统自动化越可能更优。不应鼓励用户“凡事开 Team”,而应帮助用户判断什么时候值得协作、什么时候应该保持简单。
无论选择Team或者单个Agent直接执行,都需要通过记忆、Skill等手段让Agent进行长期进步。确保即使使用Team使用了更多Token和时间,但也让Agent拿到了更多的经验和记忆。从长期来看需要将每个更懂用户更老练的Agent的成长作为ROI的考虑。因为当我们认为Agent拥有足够多的记忆和Skill,Team应该就是最解放人类双手的Agent执行模式。
5.3 未来的 Agent 会更像长期协作的数字团队
跟随Agent 间通讯设计:Agent 与人类同权部分提到的设计。后续Agent产品会在给人类和Agent开放完全对等的控制接口、数据流通。人类会更多的基于管理面板去配置Agent角色、Agent的能力和边界、分配任务。并在关键的节点交给人类决策。以及这个面板也可以由一个Agent来控制。整体的运行逻辑可能更接近,前文中提到的低效率的AI聊天室。是否能完全交给AI进行管理调度,让管理面板/Team Engine越来越轻量,还需要更强的模型出现。
多 Agent 是为了让 AI 从“单次工具”走向“长期伙伴”,从个人效率提升转变为把人从具体的开发中解放出来的关键一环。
6. 开源和如何使用
我们最新的MiniMax Agent在不久后会开源,由于工作量较大且内部迭代较快,预计与MiniMax M3的模型一起发布。
在开源之前,我们的桌面端现在已经正式发布了,也欢迎您尝试下载体验:https://agent.minimaxi.com/download。目前只需要有一个MiniMax订阅,就能享受到Agent和TokenPlan的两类产品。