小米开源OmniVoice:一个模型覆盖646种语言的语音克隆,纯开源数据训练打赢商用系统
据动察 Beating 监测,小米 AI 实验室新一代 Kaldi 团队开源 OmniVoice,一个支持 646 种语言的零样本语音克隆 TTS(文本转语音)模型。用几秒钟的参考音频就能克隆音色,跨语言也行:给一段中文录音,模型能用同一个声音说日语、韩语或其他语言。代码、权重和训练数据全部开源,Apache-2.0 许可。 架构上 OmniVoice 走极简路线。整个模型只有一个双向 Transformer,直接从文本映射到多码本声学 token(声音的离散编码),不需要先转语义 token 再转声学 token 的两阶段流水线。两个关键设计撑起了这套简单结构:全码本随机掩蔽策略提升训练效率,用大语言模型的预训练参数做初始化来提升发音准确度。推理速度 40 倍实时,PyTorch 直接跑不需要额外优化。 训练数据全部来自 50 个开源语音数据集,降噪和质量筛选后共 58 万小时。低资源语种用动态上采样保证训练效果。在 24 种语言的测试中,OmniVoice 的语音相似度和可懂度均超过多款商用系统。在 102 种语言的测试中,可懂度接近甚至优于真实录音。训练数据不足 10 小时的小语种也能合成。 除了语音克隆,模型还支持文字描述定制音色(如「男,中年,极低音调」或「女,青年,四川话」)、带噪参考音频自动降噪、笑声叹气等语气符号插入、以及中英文多音字和专有名词的发音纠正。
「查看原文」本内容旨在传递行业动态,不构成投资建议或承诺。