2026-01-23

MiniMax Speech 2.8:赋予 AI 语音“人的温度”

MiniMax Speech 2.8:赋予 AI 语音"人的温度"

今天,我们正式推出全新的语音大模型 MiniMax Speech 2.8。

这次升级不仅仅是参数的提升,更是一次关于"真实感"的突破:我们首次实现了原生语气词支持,并带来了极高精度的音色还原录音棚级音质以及地道的跨语言表现

我们致力于解决一个核心目标:让合成语音听起来更像真人在说话。

1. 那些被找回的"语气":让 AI 学会犹豫与呼吸

过去,AI语音让人感到冰冷,往往是因为它"太完美了"。真正的真人说话,其实充满了不完美的呼吸、停顿和犹豫,这些细节才是传递情绪、强调重点的关键信号。

Speech 2.8 模型首次引入了自然语气标签,通过对口语填充词进行原生建模,让每一个"嗯"、"呃"或者"哎"都保留了应有的停顿和节奏。

不再被吞掉的"嗯",不再被拉平的"呃",说话的温度,从细节开始。

语气词范例
MiniMax 稀宇科技
00:00 / 00:00

音频文案:

"嘿,是我。最近怎么样?(倒吸气)昨天那个上线日,真的是把我折腾得够呛,你是不知道,那种连轴转的感觉。(正常换气)不过还好,我现在总算活过来了,准备开始搬下一块砖。你这会儿听我说话,估计觉得我就是对着麦克风在那儿瞎聊呢,对吧?哎,重点就在这儿了:其实吧……我根本不是真人。我是 MiniMax 最新的 Speech 2.8 模型。怎么样,吓一跳吧? 你仔细品品,这呼吸声、这语气,甚至还有点随意的碎碎念,是不是跟我本人一模一样?"

2. 音色克隆:10 秒钟,复刻你的"声音指纹"

我们重新优化了人声特征的提取流程,使音色克隆的相似度达到了新的高度。

仅需 10 秒的原声片段,Speech 2.8 就能精准捕捉到你说话时的质感、气息,甚至是你特有的语速习惯。复刻出来的声音不再只是"听着像",而是真正还原了你说话的灵魂。

你的声音不只是"像",而是"就是"。

原始素材
MiniMax 稀宇科技
00:00 / 00:00
复刻结果
MiniMax 稀宇科技
00:00 / 00:00

这份复刻案例生动展示了 Speech 2.8 如何精准捕捉"声音的灵魂":

极致丝滑的"成熟质感":完美捕捉了原声中低频的胸腔共鸣与细腻的鼻音特征,还原了那种如绸缎般顺滑、带有女性成熟魅力的音色指纹。

慵懒而自然的"呼吸留白":成功复刻了原主在说话间不经意流露出的深呼吸与轻微气声,使得"可能吧"、"谁知道呢"等短句充满了真实的人机互动温度。

微嘲讽式的"语癖捕捉":精准建模了原音频中特有的"慢起快收"节奏,尤其是句尾带有一丝慵懒拖腔的语调习惯,将那种玩味、似褒实贬的情绪还原得淋漓尽致。

3. 纯净音质:告别背景杂音与数字伪影

我们全面升级了音频处理方案,有效消除了背景杂音和不自然的机械毛刺感。生成的语音更加干净、通透,听起来就像真人坐在你面前录音一样纯净。

更纯净的声音,更专业的输出。

无噪声范例
MiniMax 稀宇科技
00:00 / 00:00

音频文案:

在森林的深处,藏着一种不为人知的宁静。当清晨的第一缕微光穿过浓密的枝叶,洒在铺满苔藓的土地上时,整个世界仿佛都停下了脚步。你听,那是风穿过松针的沙沙声,细微得几乎像是耳语。

很多时候,我们总是在追赶时间,却忘了如何去感受那些安静的时刻。那些藏在书页翻动声里的专注,那些落在窗棂上的雨滴声,还有深夜里独自思考时的呼吸感。这些细碎的声音,构成了生活最真实的底色。

让我们试着在这一份平和中停留片刻,去倾听,去思考,去重新发现那些被嘈杂世界所遮盖的,最本质的温柔。

4. 跨语言体验改善:从中日场景开始

我们针对跨语言合成中的口音串入问题进行了专项优化。本次率先修正了中文音色合成日语时的发音偏移,消除了此前偶发的音素错位和语调不自然问题。后续将持续优化更多语种组合的跨语言表现。

一个音色,40+种语言,每一种都像母语者在说话。

中日混合范例

中日混合范例
MiniMax 稀宇科技
00:00 / 00:00

音频文案:

关于这次项目的进展,总体来说已经完成得不错了。

ただ、技術的な詳細については、もう少し検討する必要があります。

我们需要在下周前把最终方案定下来,どうぞよろしくお願いします。



Speech 2.8 已经全面上线,欢迎使用:


MiniMax开放平台:

Minimaxi.com/platform_overview

MiniMax Audio:

Minimaxi.com/audio

Intelligence with Everyone.