07

05月

星期四

05月07日 18:26

小米开源OmniVoice：一个模型覆盖646种语言的语音克隆，纯开源数据训练打赢商用系统

据动察 Beating 监测，小米 AI 实验室新一代 Kaldi 团队开源 OmniVoice，一个支持 646 种语言的零样本语音克隆 TTS（文本转语音）模型。用几秒钟的参考音频就能克隆音色，跨语言也行：给一段中文录音，模型能用同一个声音说日语、韩语或其他语言。代码、权重和训练数据全部开源，Apache-2.0 许可。架构上 OmniVoice 走极简路线。整个模型只有一个双向 Transformer，直接从文本映射到多码本声学 token（声音的离散编码），不需要先转语义 token 再转声学 token 的两阶段流水线。两个关键设计撑起了这套简单结构：全码本随机掩蔽策略提升训练效率，用大语言模型的预训练参数做初始化来提升发音准确度。推理速度 40 倍实时，PyTorch 直接跑不需要额外优化。训练数据全部来自 50 个开源语音数据集，降噪和质量筛选后共 58 万小时。低资源语种用动态上采样保证训练效果。在 24 种语言的测试中，OmniVoice 的语音相似度和可懂度均超过多款商用系统。在 102 种语言的测试中，可懂度接近甚至优于真实录音。训练数据不足 10 小时的小语种也能合成。除了语音克隆，模型还支持文字描述定制音色（如「男，中年，极低音调」或「女，青年，四川话」）、带噪参考音频自动降噪、笑声叹气等语气符号插入、以及中英文多音字和专有名词的发音纠正。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

5分钟前

谷歌母公司Alphabet宣布将股权融资规模从800亿美元增至847.5亿美元

7分钟前

标普1500资产管理公司指数下跌 1.8%，创四月以来新低

10分钟前

美股开盘，道指跌 0.5%，迈威尔科技涨 9.3%

10分钟前

巴尔：美联储当前政策处于良好状态，可能会维持一段时间

20分钟前

长桥证券：中国大陆境内交易服务将暂停，仅支持卖出、平仓

35分钟前

Kimi发布桌面端产品Kimi Work，定位通用型本地Agent

39分钟前

6月3日美股盘前要闻

41分钟前

「黄仁勋严选股」NVTS盘前涨超28%，已加入英伟达MGX AI工厂生态系统

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容