2024.08.31

超拟人、多情感的生成式语音大模型speech-01

立即体验

文档中心

https://filecdn.minimax.chat/public/5d8caa46-0f12-4f80-983c-64121a540744.jpg

speech-01是MiniMax全栈自研的生成式语音大模型

相较于传统TTS模型，speech-01在数据量、拟人度、自然度、情感表达和合成效率上都有显著优势。

不同于传统 TTS 采用发音词典——依赖人为对能量分布、音调变化等模型参数的预设，无法充分捕捉到数据本身、以及上下文的语境特征，MiniMax准备了数百万小时的高质量音频数据训练 GPT 大模型，让模型自行捕捉大数据中的口音、口癖、连读、吞字、语调变化等细微差别和语言习惯，再通过强化学习、扩散模型等技术方式进一步提高语音合成的自然度和流畅度。

如果说传统TTS是跟着发音字典学说话的“复读机”，那MiniMax语音模型就是在原生口语环境下熏陶长大的当地人——能够深度理解内容情景，根据不同语境调整说话的情绪，模拟口音和特殊语言习惯。

在确保声音自然流畅的基础上，我们还支持用户进行精细化个性设置：字词级的声调和停顿控制，无论是挑战绕口令还是处理多音字，都能精准掌握；句子级的语速控制，无论急性子还是慢性子都能找到合适的节奏；100+系统音色随意选择或按比例混合，声音的调色盘——端庄大气的新闻主播和嘻哈感满满的饶舌歌手都能轻松胜任。可以达到SSML语言的灵活控制的效果。

我们努力打造无延迟的语音聊天体验，让每一句话都能即时传达，让沟通回归自然。通过工程链路的优化，时延可降低30%，稳定性大幅提高。无论是直播解说中的实时互动，还是语音聊天中的亲切交流，均可带给用户接近自然的沟通体验。

不同于普遍模型支持的最长10w字符输出，MiniMax语音大模型支持超超超——超长文本语音合成！单次输出最大字符高达1000w，相当于一次性读完13.69遍《红楼梦》，1.87遍《斗破苍穹》。无论是长篇小说、网文连载，还是厚重的历史巨著，MiniMax 都能轻松驾驭，将错综复杂、浩如烟海的文字化作耳边的娓娓道来。

总结如下三个特点：

高保真，超自然

能够理解人类语言中的复杂含义，如情感，语气，甚至笑声，从文本中预测出情绪、语调等信息，生成接近人类的超自然、高保真、个性化语音

通过结合标点符号以及上下文语境，它能全方位解读文字背后的情绪世界：或是轻快激昂，或是低落悲痛……并以自然的语调将其呈现

在一些特殊语境下，它还能展示出极富戏剧性的声音张力

多样化，高延展

精确捕捉到数千种音色的独特特征，并自由组合，轻松创造出无限的声音变化、情感和风格

支持普通话、英语、德语、法语、西语等多种语言

在社交、播客、有声书、新闻资讯、教育、数字人等多元场景中，展示出淋漓尽致的声音魅力。

低成本，高效率

无需获取数小时时长的超高质量原音频、无需等待超长工期，可以在最短5S内，就可打造一份独一无二的音色

依托大模型的强大能力，对原音色进行高质量还原，无论是说话的韵律节奏，还是口音口癖，都能被精准复现。无论是广播主持、教育工作者，还是IP复刻、数字人的需求者，我们都能打造富有魅力的音频体验