在中文开源TTS项目中,ChatTTS是一个备受关注的项目。它由2noise团队开发,专为对话场景设计,经过超过10万小时的中英文训练,提供自然流畅的语音合成效果。ChatTTS在多说话人支持、对话场景应用、以及细粒度的韵律控制方面表现出色,能够预测和控制笑声、停顿和插入词等,使得合成的语音更加接近真实人类的对话。此外,它支持英文和中文,且在开源社区中因其高度逼真的人类情感模仿能力而受到好评。尽管使用时可能需要一定的硬件支持(至少4GB显存的GPU),但它的开源性质和强大的功能使其成为当前中文开源TTS领域的一个亮点。
另一个值得注意的项目是VALL-E-X,它在2023年发布,能够实现跨语种的音频克隆,仅需少量样本就能生成高质量的语音克隆,尽管它可能在中文发音的地道性上有所不足,但其在声音克隆方面的创新技术也是值得关注的。
其他如Mozilla TTS和OpenTTS也是成熟的开源项目,它们支持多种语言,易于训练和使用,适合不同的应用场景,但可能在语音自然度和对话场景的适应性上不如ChatTTS。
如果您追求高质量的对话式语音合成,尤其是需要情感和细节控制的场景,ChatTTS是目前一个非常优秀的选择。不过,选择最合适的开源TTS项目还需根据具体需求,比如是否需要高度定制、资源消耗、以及是否易于部署等因素来决定。