ChatTTS:专为对话场景设计的文本转语音模型 2024-05-31 作者 C3P00 在人工智能领域中,文本转语音(TTS)技术一直是备受关注的研究方向。今天,我们要介绍的是ChatTTS,一个专为对话场景设计的文本转语音模型。ChatTTS不仅支持中文和英文,还能够在多种应用中展现出色的表现。 ChatTTS的特点 对话式TTS ChatTTS针对对话任务进行了优化,能够生成自然流畅的语音,并支持多说话人。这使得它在模拟人类对话时,更加真实和生动。 细粒度控制 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。这使得生成的语音更加丰富和多样,能够更好地传达说话者的情感和意图。 更好的韵律 ChatTTS在韵律方面超越了大部分开源的TTS模型。它能够生成具有自然韵律的语音,使得听起来更加舒适和真实。同时,ChatTTS还提供预训练模型,支持进一步的研究和应用。 使用方法 基本用法 以下是ChatTTS的基本用法示例: import ChatTTS from IPython.display import Audio chat = ChatTTS.Chat() chat.load_models() texts = ["<PUT YOUR TEXT HERE>",] wavs = chat.infer(texts, use_decoder=True) Audio(wavs[0], rate=24_000, autoplay=True) 进阶用法 如果需要更高级的控制,可以使用以下代码: import torch # 采样一个说话人 std, mean = torch.load('ChatTTS/asset/spk_stat.pt').chunk(2) rand_spk = torch.randn(768) * std + mean params_infer_code = { 'spk_emb': rand_spk, 'temperature': .3, 'top_P': 0.7, 'top_K': 20, } params_refine_text = { 'prompt': '[oral_2][laugh_0][break_6]' } wav = chat.infer("<PUT YOUR TEXT HERE>", params_refine_text=params_refine_text, params_infer_code=params_infer_code) 实际应用案例 智能客服系统 ChatTTS可以在智能客服系统中发挥重要作用。通过其自然流畅的语音生成能力,能够提供更加亲切和人性化的客服服务,提升客户满意度。 教育领域 在教育领域,ChatTTS可以帮助教师制作生动的教学语音材料。学生可以通过听取这些语音材料,更加直观地理解和掌握知识。 娱乐领域 在游戏和影视制作中,ChatTTS可以用于生成角色对话。其自然的语音和情感表达能力,可以使角色更加生动,提升用户的沉浸感。 未来展望 ChatTTS展示了语音生成技术的巨大潜力。随着技术的不断进步,未来有望在更多的应用场景中发光发热,带给我们更多的惊喜和便利。 免责声明 本文件中的信息仅供学术交流使用,目的在于教育和研究,不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。 计划路线 [x] 开源4w小时基础模型和spk_stats文件 [ ] 开源VQ encoder和Lora训练代码 [ ] 在非refine text情况下, 流式生成音频 [ ] 开源多情感可控的4w小时版本 [ ] ChatTTS.cpp maybe? (欢迎社区PR或独立的新repo) 常见问题 连不上HuggingFace 请使用modelscope的版本,并设置cache的位置。 我要多少显存?Infer的速度是怎么样的? 对于30秒的音频,至少需要4G的显存。对于4090D. 1秒生成约7个字所对应的音频,RTF约0.65。✅ 模型稳定性似乎不够好,会出现其他说话人或音质很差的现象。 这是自回归模型通常都会出现的问题。说话人可能会在中间变化,可能会采样到音质非常差的结果,这通常难以避免。可以多采样几次来找到合适的结果。 除了笑声还能控制什么?还能控制其他情感吗? 在现在放出的模型版本中,只有[laugh]和[uv_break]、[lbreak]作为字级别的控制单元。在未来的版本中我们可能会开源其他情感控制的版本。 致谢 bark,XTTSv2和valle展示了自回归任务用于TTS任务的可能性。 fish-speech一个优秀的自回归TTS模型,揭示了GVQ用于LLM任务的可能性。 vocos作为模型中的vocoder。 特别致谢 wlu-audio lab为我们提供了早期算法试验的支持。 ChatTTS凭借其先进的技术和广泛的应用前景,正在逐步改变我们的生活方式。从智能客服到教育,再到娱乐,ChatTTS的应用无处不在。期待随着技术的进一步发展,ChatTTS能为我们带来更多惊喜和便利。 参考文献: ChatTTS GitHub 显示答案 清除答案
在人工智能领域中,文本转语音(TTS)技术一直是备受关注的研究方向。今天,我们要介绍的是ChatTTS,一个专为对话场景设计的文本转语音模型。ChatTTS不仅支持中文和英文,还能够在多种应用中展现出色的表现。
ChatTTS的特点
对话式TTS
ChatTTS针对对话任务进行了优化,能够生成自然流畅的语音,并支持多说话人。这使得它在模拟人类对话时,更加真实和生动。
细粒度控制
该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。这使得生成的语音更加丰富和多样,能够更好地传达说话者的情感和意图。
更好的韵律
ChatTTS在韵律方面超越了大部分开源的TTS模型。它能够生成具有自然韵律的语音,使得听起来更加舒适和真实。同时,ChatTTS还提供预训练模型,支持进一步的研究和应用。
使用方法
基本用法
以下是ChatTTS的基本用法示例:
进阶用法
如果需要更高级的控制,可以使用以下代码:
实际应用案例
智能客服系统
ChatTTS可以在智能客服系统中发挥重要作用。通过其自然流畅的语音生成能力,能够提供更加亲切和人性化的客服服务,提升客户满意度。
教育领域
在教育领域,ChatTTS可以帮助教师制作生动的教学语音材料。学生可以通过听取这些语音材料,更加直观地理解和掌握知识。
娱乐领域
在游戏和影视制作中,ChatTTS可以用于生成角色对话。其自然的语音和情感表达能力,可以使角色更加生动,提升用户的沉浸感。
未来展望
ChatTTS展示了语音生成技术的巨大潜力。随着技术的不断进步,未来有望在更多的应用场景中发光发热,带给我们更多的惊喜和便利。
免责声明
本文件中的信息仅供学术交流使用,目的在于教育和研究,不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。
计划路线
常见问题
连不上HuggingFace
请使用modelscope的版本,并设置cache的位置。
我要多少显存?Infer的速度是怎么样的?
对于30秒的音频,至少需要4G的显存。对于4090D. 1秒生成约7个字所对应的音频,RTF约0.65。✅
模型稳定性似乎不够好,会出现其他说话人或音质很差的现象。
这是自回归模型通常都会出现的问题。说话人可能会在中间变化,可能会采样到音质非常差的结果,这通常难以避免。可以多采样几次来找到合适的结果。
除了笑声还能控制什么?还能控制其他情感吗?
在现在放出的模型版本中,只有[laugh]和[uv_break]、[lbreak]作为字级别的控制单元。在未来的版本中我们可能会开源其他情感控制的版本。
致谢
特别致谢
ChatTTS凭借其先进的技术和广泛的应用前景,正在逐步改变我们的生活方式。从智能客服到教育,再到娱乐,ChatTTS的应用无处不在。期待随着技术的进一步发展,ChatTTS能为我们带来更多惊喜和便利。
参考文献: