16

06

星期二

19:03

Cartesia发布全新TTS与STT模型Sonic-3.5与Ink-2

据动察 Beating 监测,AI 语音模型初创公司 Cartesia 宣布发布 Sonic-3.5 与 Ink-2,并推出由两款模型组成的统一实时语音智能体技术栈。Sonic-3.5 负责文本转语音(TTS),Ink-2 负责语音转文本(STT)。 Sonic-3.5 偏向于实时低延迟语音生成,首音输出时间缩短至 90 毫秒。出厂支持 42 种语言,无需预处理即可支持英文异音词和字母数字的发音。 Ink-2 的字错率(Word Error Rate)降至 3.6%,同时引入了原生轮次检测(Native Turn-Detection)和噪声处理机制,能基于句意和语义理解判定用户是否发言完毕,而不是仅依赖传统的安静时长。目前 Ink-2 仅提供英文版,多语言版本将在后续推出。 开发者可以通过单个 API 同时调用这两款模型。Sonic-3.5 与 Ink-2 在设计上进行双向流式协同,以减少由于「多供应商拼接」带来的传输延迟与系统损耗。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。