MiniMax
研究
产品
关于我们
2024.08.31

超拟人、多情感的生成式语音大模型speech-01

https://filecdn.minimax.chat/public/5d8caa46-0f12-4f80-983c-64121a540744.jpg

speech-01是MiniMax全栈自研的生成式语音大模型

相较于传统TTS模型,speech-01在数据量、拟人度、自然度、情感表达和合成效率上都有显著优势。

不同于传统 TTS 采用发音词典——依赖人为对能量分布、音调变化等模型参数的预设,无法充分捕捉到数据本身、以及上下文的语境特征,MiniMax准备了数百万小时的高质量音频数据训练 GPT 大模型,让模型自行捕捉大数据中的口音、口癖、连读、吞字、语调变化等细微差别和语言习惯,再通过强化学习、扩散模型等技术方式进一步提高语音合成的自然度和流畅度。

如果说传统TTS是跟着发音字典学说话的“复读机”,那MiniMax语音模型就是在原生口语环境下熏陶长大的当地人——能够深度理解内容情景,根据不同语境调整说话的情绪,模拟口音和特殊语言习惯。

在确保声音自然流畅的基础上,我们还支持用户进行精细化个性设置:字词级的声调和停顿控制,无论是挑战绕口令还是处理多音字,都能精准掌握;句子级的语速控制,无论急性子还是慢性子都能找到合适的节奏;100+系统音色随意选择或按比例混合,声音的调色盘——端庄大气的新闻主播和嘻哈感满满的饶舌歌手都能轻松胜任。可以达到SSML语言的灵活控制的效果。

我们努力打造无延迟的语音聊天体验,让每一句话都能即时传达,让沟通回归自然。通过工程链路的优化,时延可降低30%,稳定性大幅提高。无论是直播解说中的实时互动,还是语音聊天中的亲切交流,均可带给用户接近自然的沟通体验。

不同于普遍模型支持的最长10w字符输出,MiniMax语音大模型支持超超超——超长文本语音合成!单次输出最大字符高达1000w,相当于一次性读完13.69遍《红楼梦》,1.87遍《斗破苍穹》。无论是长篇小说、网文连载,还是厚重的历史巨著,MiniMax 都能轻松驾驭,将错综复杂、浩如烟海的文字化作耳边的娓娓道来。

总结如下三个特点:

高保真,超自然

能够理解人类语言中的复杂含义,如情感,语气,甚至笑声,从文本中预测出情绪、语调等信息,生成接近人类的超自然、高保真、个性化语音

通过结合标点符号以及上下文语境, 它能全方位解读文字背后的情绪世界:或是轻快激昂,或是低落悲痛……并以自然的语调将其呈现

在一些特殊语境下,它还能展示出极富戏剧性的声音张力

多样化,高延展

精确捕捉到数千种音色的独特特征,并自由组合,轻松创造出无限的声音变化、情感和风格

支持普通话、英语、德语、法语、西语等多种语言

在社交、播客、有声书、新闻资讯、教育、数字人等多元场景中,展示出淋漓尽致的声音魅力。

低成本,高效率

无需获取数小时时长的超高质量原音频、无需等待超长工期,可以在最短5S内,就可打造一份独一无二的音色

依托大模型的强大能力,对原音色进行高质量还原,无论是说话的韵律节奏,还是口音口癖,都能被精准复现。无论是广播主持、教育工作者,还是IP复刻、数字人的需求者,我们都能打造富有魅力的音频体验

logo
©上海稀宇科技有限公司 2025 版权所有隐私条款用户协议