2026-01-23

MiniMax Speech 2.8：赋予 AI 语音“人的温度”

即刻接入 API

立即体验语音

https://filecdn.minimax.chat/public/b94fb26a-aeb5-4303-929e-a28033e26fb1.png

MiniMax Speech 2.8：赋予 AI 语音"人的温度"

今天，我们正式推出全新的语音大模型 MiniMax Speech 2.8。

这次升级不仅仅是参数的提升，更是一次关于"真实感"的突破：我们首次实现了原生语气词支持，并带来了极高精度的音色还原、录音棚级音质以及地道的跨语言表现。

我们致力于解决一个核心目标：让合成语音听起来更像真人在说话。

1. 那些被找回的"语气"：让 AI 学会犹豫与呼吸

过去，AI语音让人感到冰冷，往往是因为它"太完美了"。真正的真人说话，其实充满了不完美的呼吸、停顿和犹豫，这些细节才是传递情绪、强调重点的关键信号。

Speech 2.8 模型首次引入了自然语气标签，通过对口语填充词进行原生建模，让每一个"嗯"、"呃"或者"哎"都保留了应有的停顿和节奏。

不再被吞掉的"嗯"，不再被拉平的"呃"，说话的温度，从细节开始。

语气词范例

MiniMax 稀宇科技

00:00 / 00:00

音频文案：

"嘿，是我。最近怎么样？(倒吸气)昨天那个上线日，真的是把我折腾得够呛，你是不知道，那种连轴转的感觉。（正常换气）不过还好，我现在总算活过来了，准备开始搬下一块砖。你这会儿听我说话，估计觉得我就是对着麦克风在那儿瞎聊呢，对吧？哎，重点就在这儿了：其实吧……我根本不是真人。我是 MiniMax 最新的 Speech 2.8 模型。怎么样，吓一跳吧？你仔细品品，这呼吸声、这语气，甚至还有点随意的碎碎念，是不是跟我本人一模一样？"

2. 音色克隆：10 秒钟，复刻你的"声音指纹"

我们重新优化了人声特征的提取流程，使音色克隆的相似度达到了新的高度。

仅需 10 秒的原声片段，Speech 2.8 就能精准捕捉到你说话时的质感、气息，甚至是你特有的语速习惯。复刻出来的声音不再只是"听着像"，而是真正还原了你说话的灵魂。

你的声音不只是"像"，而是"就是"。

原始素材

MiniMax 稀宇科技

00:00 / 00:00

复刻结果

MiniMax 稀宇科技

00:00 / 00:00

这份复刻案例生动展示了 Speech 2.8 如何精准捕捉"声音的灵魂"：

极致丝滑的"成熟质感"：完美捕捉了原声中低频的胸腔共鸣与细腻的鼻音特征，还原了那种如绸缎般顺滑、带有女性成熟魅力的音色指纹。

慵懒而自然的"呼吸留白"：成功复刻了原主在说话间不经意流露出的深呼吸与轻微气声，使得"可能吧"、"谁知道呢"等短句充满了真实的人机互动温度。

微嘲讽式的"语癖捕捉"：精准建模了原音频中特有的"慢起快收"节奏，尤其是句尾带有一丝慵懒拖腔的语调习惯，将那种玩味、似褒实贬的情绪还原得淋漓尽致。

3. 纯净音质：告别背景杂音与数字伪影

我们全面升级了音频处理方案，有效消除了背景杂音和不自然的机械毛刺感。生成的语音更加干净、通透，听起来就像真人坐在你面前录音一样纯净。

更纯净的声音，更专业的输出。

无噪声范例

MiniMax 稀宇科技

00:00 / 00:00

音频文案：

在森林的深处，藏着一种不为人知的宁静。当清晨的第一缕微光穿过浓密的枝叶，洒在铺满苔藓的土地上时，整个世界仿佛都停下了脚步。你听，那是风穿过松针的沙沙声，细微得几乎像是耳语。

很多时候，我们总是在追赶时间，却忘了如何去感受那些安静的时刻。那些藏在书页翻动声里的专注，那些落在窗棂上的雨滴声，还有深夜里独自思考时的呼吸感。这些细碎的声音，构成了生活最真实的底色。

让我们试着在这一份平和中停留片刻，去倾听，去思考，去重新发现那些被嘈杂世界所遮盖的，最本质的温柔。

4. 跨语言体验改善：从中日场景开始

我们针对跨语言合成中的口音串入问题进行了专项优化。本次率先修正了中文音色合成日语时的发音偏移，消除了此前偶发的音素错位和语调不自然问题。后续将持续优化更多语种组合的跨语言表现。

一个音色，40+种语言，每一种都像母语者在说话。

中日混合范例

MiniMax 稀宇科技

00:00 / 00:00

音频文案：

关于这次项目的进展，总体来说已经完成得不错了。

ただ、技術的な詳細については、もう少し検討する必要があります。

我们需要在下周前把最终方案定下来，どうぞよろしくお願いします。

Speech 2.8 已经全面上线，欢迎使用：

MiniMax开放平台:

Platform.minimaxi.com/docs/guides/models-intro

MiniMax Audio:

Minimaxi.com/audio

Intelligence with Everyone.