07

06

星期日

11:55

小红书开源全连续自回归TTS模型dots.tts,支持零样本声音克隆

据 动察 Beating 监测,小红书 hi lab 开源了 20 亿参数的端到端自回归文本转语音 (TTS) 模型 dots.tts,并采用 Apache 2.0 协议公开了完整的推理与微调代码。公开发布的权重包括基础预训练版本、自我纠错对齐 (SCA) 微调版本以及低延迟推理蒸馏版本。 不同于传统依赖离散音频编解码 Token (Discrete Codec Tokens) 的 TTS 架构 (如 VALL-E、CosyVoice、ChatTTS 等),dots.tts 实现了全连续、端到端的自回归流匹配架构,在整个管线中完全不使用任何离散 Token。dots.tts 将 48 kHz 采样率的 AudioVAE 提取的连续特征与语义编码器、骨干语言模型 (初始化自 Qwen2.5-1.5B-Base,直接处理 BPE 文本,无需拼音输入) 以及自回归流匹配声学头相结合,预测连续潜变量,并由生成器重构为音频。由于直接预测连续特征,dots.tts 避开了离散量化造成的音质损失,保留了发音细节、音色相似度与情感表现力。 dots.tts 基于约 150 万小时语音数据预训练。在 Seed-TTS-Eval 评测中,dots.tts 在中文、英文和中文困难测试集上的字错误率 (WER) 分别为 0.94% / 1.30% / 6.60%,相似度得分 (SIM) 为 81.0 / 77.1 / 79.5,均达到开源 SOTA 水平。在 24 种语言的 MiniMax Multilingual 基准测试中,平均说话人相似度达到 83.9。小红书已在 Hugging Face 提供了 Gradio 体验空间,供用户在线测试零样本声音克隆。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。