07

06月

星期日

11:55

小红书开源全连续自回归TTS模型dots.tts，支持零样本声音克隆

据动察 Beating 监测，小红书 hi lab 开源了 20 亿参数的端到端自回归文本转语音 (TTS) 模型 dots.tts，并采用 Apache 2.0 协议公开了完整的推理与微调代码。公开发布的权重包括基础预训练版本、自我纠错对齐 (SCA) 微调版本以及低延迟推理蒸馏版本。不同于传统依赖离散音频编解码 Token (Discrete Codec Tokens) 的 TTS 架构 (如 VALL-E、CosyVoice、ChatTTS 等)，dots.tts 实现了全连续、端到端的自回归流匹配架构，在整个管线中完全不使用任何离散 Token。dots.tts 将 48 kHz 采样率的 AudioVAE 提取的连续特征与语义编码器、骨干语言模型 (初始化自 Qwen2.5-1.5B-Base，直接处理 BPE 文本，无需拼音输入) 以及自回归流匹配声学头相结合，预测连续潜变量，并由生成器重构为音频。由于直接预测连续特征，dots.tts 避开了离散量化造成的音质损失，保留了发音细节、音色相似度与情感表现力。 dots.tts 基于约 150 万小时语音数据预训练。在 Seed-TTS-Eval 评测中，dots.tts 在中文、英文和中文困难测试集上的字错误率 (WER) 分别为 0.94% / 1.30% / 6.60%，相似度得分 (SIM) 为 81.0 / 77.1 / 79.5，均达到开源 SOTA 水平。在 24 种语言的 MiniMax Multilingual 基准测试中，平均说话人相似度达到 83.9。小红书已在 Hugging Face 提供了 Gradio 体验空间，供用户在线测试零样本声音克隆。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

18分钟前

韩国散户「逃顶」美股，本周抛售超1万亿韩元海外股票

28分钟前

OpenAI芯片元老“002号员工”转投Anthropic

30分钟前

OpenAI计划对ChatGPT进行上线以来最大规模升级

37分钟前

下周宏观展望，美国 CPI 携手两大央行决议，SpaceX IPO 重磅来袭

38分钟前

算力普惠再提速，全球首个“预制算力中心底座”正式投用

39分钟前

「新股神」Serenity谈个人投资框架：猜对市场还不知道的事，用碎片拼凑高信念推论

51分钟前

灰度提交Canton代币CC的现货ETF S-1申请

51分钟前

小红书开源全连续自回归TTS模型dots.tts，支持零样本声音克隆

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容