不完美,但不曾止步:MiniMax的2025
在这段5分钟的故事里,没有炫技,只有最真实、甚至有些狼狈的告白。 有一个影子或许就是你,或者是每一个在过去一年里努力奔跑、却偶尔踉跄的我们。
比如复杂动作呈现及攻克体操的行业难题,由Hailuo 02最先解决:
Prompt:男人在原地卡住,然后朝画面左侧走去
以及电影级运镜:
比如,当AI看到图中有杯子和酒瓶时,就会默认把酒倒进杯子,即便Prompt中强调了酒杯中没有酒。最终,我们试了89次才成功生成右侧的正确片段。
Prompt:男人把不小心把酒倒在桌子上,然后马上拿起酒瓶,又把酒倒在了桌子上,酒杯中没有酒。
再如,片段中看似简单的开门动作,对AI来说也是世纪难题。当人和物体发生交互时,物体很容易出现不合理的形变,我们也对比尝试了几乎所有的视频生成工具,成功率都很低,结果大多如这两条视频所呈现。
Prompt:男人向后拉开米白色的家门,镜头推进,看到了外面站着和自己打招呼的3个好朋友。
抛开这些不完美, 我们依旧真切感受到Hailuo的快速成长。这一年, MiniMax视频模型从Video 01系列升级到Hailuo 02系列, 做到了全球前二。两代视频模型已经帮助用户生成超过了5.9亿个视频, 在复杂动态、指令遵循和美学表现上已经得到了创作者们的共同认可。Hailuo每一代都追求模型能力定义的突破。在新的一年, 我们将会把我们对下一代多模态智能的理解, 通过Hailuo 03带给大家。
故事中的部分自然流畅的对话, 由MiniMax语音模型支撑。今年, Speech 01、Music 01升级为Speech 2.6和Music 2.0系列, 两代模型帮助用户生成语音总时长已累计超过2.2亿小时。大家最需要的高相似度、归一化和多语种混读功能, 以及对Voice Agent应用场景的打通, 在语音模型上都得到了实现。我们将继续优化语音生成细节的灵活、稳定控制, 提升音乐模型的音质表现, 坚持SOTA语音技术和极致的性价比。
从年初的MiniMax 01到首个推理模型MiniMax M1, 再到最新发布的MiniMax M2.1, 我们在文本模型领域取得了突破性进步。今年10月, M2刷新了Artificial Analysis榜单上国产文本模型最高成绩, 随后在OpenRouter上实现了国产模型调用量新高, 朋友圈不断扩大——Cline、Kilo Code、Roo Code、Droid、Fireworks与Trae、秘塔AI等近30家海内外开发平台和众多国内外合作企业、开发者都选择接入了MiniMax的最新模型。
本周发布的M2.1已经正式开源。我们会持续探索文本模型的Coding和Agentic能力、继续提升办公场景实用性, 让每个人都拥有充裕的、可真实落地使用的智能。
重新回看这一年, 我们的每一款模型发布前都藏着大大小小的波折, 就如这场年末聚会故事里暴露的那些Bug, 但我们始终相信: 一个真实的、正在成长的模型, 比一堆完美的、冰冷的参数更有生命力。相比于终极智能, 真正让我们在这个行业扎根、生长, 并获得成就感的, 是藏在Bug里的某次和解, 是第90次尝试成功后的欢呼, 是用户在屏幕另一端, 对这份“不完美”的包容与期待。
AI会迭代, 人亦在成长。2025年, MiniMax完成了从研发AGI到和AGI一起进步的转变, 我们接纳自己的缺陷, 也更相信未来的力量。感谢每一位朋友对MiniMax的关注与支持, 包容我们的不完美, 陪伴我们一起在算法的裂缝中与光同行。
更多惊喜已在路上, 我们明年见。(文内所列视频、动图及音乐均由AI技术生成)
Intelligence with Everyone.