Voicebox是一款基于Meta AI非自回归流匹配模型构建的先进语音生成模型,通过学习解决基于海量数据的文本引导语音填充任务。Voicebox凭借其上下文学习能力,在语音任务中的表现超越了单一用途的 AI 模型。
ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用,支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。