[1] Y. Ren, C. Hu, X. Tan, T. Qin et al., “FastSpeech 2: Fast and High-Quality End-to-End Text to Speech,” arXiv:2006.04558, 2020.✅
[2] E. Kharitonov, D. Vincent, Z. Borsos, R. Marinier et al., “Speak, read and prompt: High-fidelity text-to-speech with minimal supervision,” arXiv:2302.03540, 2023.✅
[3] C. Wang, S. Chen, Y. Wu, Z. Zhang et al., “Neural Codec Language Models Are Zero-Shot Text to Speech Synthesizers, 2023,” URL: https://arxiv. org/abs/2301.02111. doi: doi, 2023.✅
[4] Y. Liu, Z. Xu, G. Wang, K. Chen et al., “DelightfulTTS: The Microsoft speech synthesis system for Blizzard Challenge 2021,” arXiv:2110.12612, 2021.✅
[5] X. Tan, J. Chen, H. Liu, J. Cong et al., “NaturalSpeech: End-to-End Text-to-Speech Synthesis with Human-Level Quality,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.✅
[6] A. Lancucki, “Fastpitch: Parallel Text-to-Speech with Pitch Prediction,” in ICASSP. IEEE, 2021.✅
[7] R. Skerry-Ryan, E. Battenberg, Y. Xiao, Y. Wang et al., “Towards end-to-end prosody transfer for expressive speech synthesis with tacotron,” in ICML. PMLR, 2018.✅
[8] Y. Wang, D. Stanton, Y. Zhang, R.-S. Ryan et al., “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in ICML. PMLR, 2018.✅
[9] Y. Yan, X. Tan, B. Li, T. Qin et al., “Adaspeech 2: Adaptive Text to Speech with Untranscribed Data,” in ICASSP, 2021.✅
[10] E. Casanova, J. Weber, C. D. Shulby, A. C. Junior et al., “Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone,” in ICML. PMLR, 2022.✅
[11] F. Lux, J. Koch, and N. T. Vu, “Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech,” in SLT. IEEE, 2023.✅
[12] M. Kim, S. J. Cheon, B. J. Choi, J. J. Kim et al., “Expressive Text-to-Speech Using Style Tag,” in Interspeech. ISCA, 2021.✅
[13] Y. Shin, Y. Lee, S. Jo, Y. Hwang et al., “Text-driven Emotional Style Control and Cross-speaker Style Transfer in Neural TTS,” in Interspeech. ISCA, 2022.✅
[14] Z. Guo, Y. Leng, Y. Wu, S. Zhao et al., “Prompttts: Controllable Text-To-Speech With Text Descriptions,” in ICASSP, 2023.✅
[15] D. Yang, S. Liu, R. Huang, G. Lei et al., “InstructTTS: Modelling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt,” arXiv, 2023.✅
[16] G. Liu, Y. Zhang, Y. Lei, Y. Chen et al., “PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions,” arXiv:2305.19522, 2023.✅
[17] Y. Leng, Z. Guo, K. Shen, X. Tan et al., “Prompttts 2: Describing and generating voices with text prompt,” arXiv:2309.02285, 2023.✅
[18] A. F. G. Leentjens, S. M. Wielaert, F. van Harskamp, and F. W. Wilmink, “Disturbances of affective prosody in patients with schizophrenia, a cross sectional study,” J Neurol Neurosurg Psychiatry, 1998.✅
[19] D. A. Sauter, F. Eisner, A. J. Calder, and S. K. Scott, “Perceptual Cues in Nonverbal Vocal Expressions of Emotion,” Quarterly Journal of Experimental Psychology, 2010.✅
[20] M. D. Pell and S. A. Kotz, “On the Time Course of Vocal Emotion Recognition,” PLoS ONE, 2011.✅
[21] J. Tu, Z. Cui, X. Zhou, S. Zheng et al., “Contextual Expressive Text-to-Speech,” arXiv:2211.14548, 2022.✅
[22] Y. Koizumi, H. Zen, S. Karita, Y. Ding et al., “Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations,” arXiv:2303.01664, 2023.✅
近年来,提示工程(Prompt Engineering)已成为引导生成式机器学习模型输出的标准方法之一,因为它使用自然语言,直观易懂。本文介绍了一种基于情感丰富的文本嵌入的系统,该系统可以作为提示,用于控制语音合成系统的情感表达。该系统将说话人和提示的嵌入信息整合到基于Transformer的架构中,并在多个关键点进行融合。该方法在合并的情感语音和文本数据集上进行训练,并在每次训练迭代中随机更换提示,以提高模型的泛化能力。客观和主观评估结果表明,该条件合成系统能够将提示中存在的情感准确地传递到语音中。同时,该系统还能精确地控制说话人的身份,并保持高语音质量和清晰度。
文本转语音系统中的情感表达挑战
文本转语音 (TTS) 系统近年来取得了快速发展,可以合成出与人类说话者相媲美的自然和清晰的语音。然而,一对多映射问题仍然是 TTS 系统面临的基本挑战之一。这意味着,对于给定的输入文本,存在无限多种有效的语音实现方式,这些实现方式在韵律方面可能有所不同,包括说话风格、语调、重音或节奏。
为了解决这个问题,一种常用的方法是丰富输入端,即要编码的文本,并添加辅助韵律信息来减轻映射中的不匹配。这些额外的韵律信息通常可以在推理时进行控制。许多先前的方法依赖于参考音频来传递所需的说话风格。然而,这些方法要求用户在推理时提供具有所需标准的参考语音,而这些语音可能并不总是可用。
为了解决这个问题,最近的研究重点是使用自然语言描述来指导 TTS 系统中的韵律方面,这些系统是在带有风格描述的语音数据集上训练的。例如,Style Tagging TTS 引入了一种专门的损失函数,允许用户在推理时提供参考语音或风格标签。PromptTTS 在预定义的标签(如性别、音调、语速、音量和情感)上微调风格嵌入。PromptStyle 和 InstructTTS 引入了一种跨模态风格编码器,该编码器从语音中学习提示和风格嵌入的共享嵌入空间。然而,这些方法需要带有风格描述的数据集,而创建这些数据集成本很高。此外,手动提供的风格描述是有限的,因为它们通常遵循类似的模式。PromptTTS 2 试图通过从音频中标记性别和速度等语音特征,并根据这些特征自动生成描述性提示来克服这个问题,但这限制了它们的控制粒度。
情感 TTS:一种新兴的控制领域
由于情感状态是可以通过改变韵律特征来表达的最明显的方面之一,因此情感 TTS 是可控 TTS 中的一个重要子领域。在这方面,一些研究人员尝试从情感文本数据集中自动提取提示,并将它们与带有情感标签的语音样本进行匹配。
我们的方法遵循类似的策略,结合公开可用的情感语音和文本数据集,并获得音频和提示之间强烈的依赖关系。此外,在每次训练迭代中,提示都是从一个大型池中随机选择的,这提高了 TTS 系统的泛化能力,并降低了学习过于特定连接的风险。与将说话人身份建模到提示中的方法不同,我们的方法有效地结合了提示和说话人嵌入,从而实现精确的韵律和音色可控性。
我们的贡献
我们的主要贡献包括:
我们对我们的贡献进行了客观和主观评估,发现提示中存在的情感可以准确地传递到语音中,同时保持说话人身份的精确可控性和高语音质量。我们的所有代码和模型都可以在开源许可下获得。
系统架构
我们的系统基于 IMS Toucan 工具包,并对其进行了扩展,以便根据文本提示的情感内容对模型进行条件化。输入文本使用带有 eSpeak-NG 后端的音素器转换为音素序列。每个音素进一步转换为发音特征向量。频谱图帧由类似于 FastSpeech-2 的系统生成,该系统包括一个 Conformer 编码器和解码器,以及用于每个音素的持续时间、音调和能量的韵律预测器。为了提高高频细节,系统使用基于正则化流的后网络。最后,该系统通过来自对抗网络的鉴别器反馈进行训练,该网络被优化为区分真实和生成的频谱图。
自然语言提示被馈送到基于 DistilRoBERTa 模型的句子嵌入提取器中,该模型在情感分类任务上进行了微调。嵌入是从 [CLS] 标记的 756 维隐藏表示中获得的。由于情感分类是基于该标记的嵌入,因此它应该能够有效地捕获输入的情感内容的相关信息。这些提示嵌入进一步通过线性层传递,以使它们能够适应 TTS 目的,因为提示编码器在 TTS 训练期间不会更新。相反,说话人嵌入是从嵌入矩阵中获得的,该矩阵在 TTS 训练期间联合更新,以捕获不同的说话人身份。为了实现零样本语音适应,可以使用预训练的说话人嵌入函数,但为了简化研究,我们选择不使用它。提示和说话人嵌入被连接起来,并通过一个压缩和激励块传递。该组件对来自这两个来源的特征之间的相互依赖关系进行建模,并将它们投影到系统的隐藏维度中。使用压缩和激励块的动机来自一项内部试点研究,在该研究中,我们比较了使用各种形式的条件机制的有效性,例如连接后投影、加法、条件层归一化和压缩和激励块。尽管差异很小,但我们决定继续使用压缩和激励块,因为它在感知上略微更好地捕捉到条件信号中的细微差别。该块的输出是一个包含说话人身份和提示语义信息的表示。该表示通过将其作为辅助输入提供给编码器、解码器和韵律预测器来整合到 TTS 系统的管道中。在这些地方,它使用条件层归一化进行整合,这被证明在 TTS 管道中效果很好。在多个地方添加条件信号的动机来自 StyleTTS,他们认为模型很快就会忘记条件信号,需要不断地提醒它们,以便进行更准确的条件化。最后,频谱图使用带有 Avocado 鉴别器的 HiFi-GAN 生成器转换为波形。在推理过程中,该管道在 Nvidia GeForce RTX 2080 Ti GPU 上实现了 0.07 的实时因子,在 AMD EPYC 7542 CPU 上实现了 0.16 的实时因子,无需使用批处理。
训练过程
TTS 系统的训练通过课程学习进行,分为两个阶段。尽管在第一阶段仍然使用条件提示,但其主要目的是获得一个健壮且高质量的系统。因此,该阶段除了情感语音数据集之外,还包括 LJSpeech 和 LibriTTS-R. 大量训练样本和大量说话人对提高语音质量有利,并使系统对发音错误更加健壮。由于 LJSpeech 和 LibriTTS-R 不包含情感标签,因此提示嵌入是从相应的语音中提取的。在第二阶段,模型仅使用情感语音数据集进行训练,使其能够专注于学习提示嵌入和语音情感之间的联系。对于每个训练样本,根据情感标签从 10k 个可用提示嵌入中随机选择一个。这确保了提示和语音情感之间的高度对应,并且还具有以下优点:它看到了大量不同的提示,这降低了过拟合的风险,并提高了系统的泛化能力,以便在推理时可以使用任意提示。整个系统在第一阶段训练了 120k 步,在第二阶段在单个 Nvidia GeForce RTX A6000 GPU 上训练了额外的 80k 步。✅
评估结果
为了评估我们的系统,我们将其与基线系统进行了比较,该系统遵循完全相同的架构,但缺少条件化提示嵌入。此外,我们在客观评估中还纳入了 EmoSpeech,该系统将 FastSpeech 2 架构条件化为 ESD 的离散情感标签。对于我们的条件提示系统,测试句子使用句子本身作为提示以及使用带有不同情感的句子作为提示进行合成。这使我们能够评估生成的语音情感是否依赖于提供的提示嵌入。我们还将所有真实语音样本通过 TTS 系统的声码器,以便与合成语音进行公平比较。来自 ESD 的说话人身份用于评估目的,包括情感类别:愤怒、快乐、中性、悲伤和惊讶。
多说话人能力
我们计算说话人相似度,即真实语音样本和合成语音样本的说话人嵌入之间的余弦相似度。由此,说话人嵌入使用预训练的说话人验证模型进行提取。表 2 中的结果显示了 ESD 中所有说话人之间的高整体说话人相似度,表明说话人身份在合成过程中几乎完全保留,不受提示嵌入整合的影响。与 EmoSpeech 相比,我们提出的系统和我们的基线系统都表现得明显更好。这可能是由于我们在课程学习过程中使用了多说话人训练阶段。
韵律可控性
我们使用在 ESD 上训练的辅助语音情感识别模型来预测合成语音的情感标签,并将这些标签与应用提示的真实标签进行比较。图 3 中的混淆矩阵说明了预测情感标签相对于基础标签的相对频率。此外,作为情感标签之间关联强度的度量,我们计算了 Cramér’s V. 结果如表 3 所示。情感识别模型对真实语音实现了总体高准确率和高关联强度,表明情感通常可以可靠地识别。考虑到这一点,条件提示系统中基础情感标签和预测情感标签之间的强一致性表明,提示的情感内容被准确地传递到语音中。此外,语音韵律完全依赖于提供的提示,不受合成语音的输入文本的影响,如将来自不同情感类别的提示和输入文本组合时的高准确率所揭示(“条件提示其他”)。相反,对于基线系统,预测的情感类别主要是悲伤和中性,表明生成的语音几乎没有韵律变化,而与输入文本的情感内容无关。这些观察结果进一步得到了条件提示系统的 Cramér’s V 值的证实,这些值与真实值相当,遵循 α = 0.005 的学生 t 检验。EmoSpeech 产生了非常强劲的结果,甚至超过了真实值。然而,它仅限于离散情感标签,而我们的系统捕获了一个连续空间,不需要手动选择适当的情感。这相对于 EmoSpeech 等专门系统的最新技术具有很大优势,但代价是情感准确率略有下降。✅
主观评估
由于我们在一个小规模的试点研究中注意到 EmoSpeech 的质量和清晰度差异很大,因此我们选择将其从主观评估中排除,以防止出现天花板效应。因此,我们在以下内容中仅将我们提出的系统与基线系统和人类录音进行比较。我们进行了一项听力研究,共有 82 名参与者参与,使用来自 ESD 的女性和男性说话人身份生成的测试句子,并使用不同的提示。
语音质量
我们要求参与者在 5 分制上对语音质量进行评分,考虑自然度、流畅度和清晰度。基于 656 次评分的平均意见评分 (MOS) 研究结果(表 4)表明,来自基线系统和我们提出的系统的合成语音与真实语音相比略有下降,但差异不显著,并且彼此之间也没有显著差异(遵循 α = 0.005 的学生 t 检验)。我们得出结论,添加提示条件化不会影响 TTS 系统的感知自然度。
情感风格迁移
最后,参与者被展示来自条件提示系统的合成语音,其中相同的提示用于多个具有不匹配情感内容的语音,并被要求在 5 分制上对语音样本相对于提示的韵律实现的相似度进行评分。我们收到了 320 个韵律相似度评分。结果如表 5 所示。两个说话人之间总体上很高的评分表明,该模型准确地遵循了提示来实现语音情感,并且该情感可以有效地通过使用相同的提示传递到任意语音中,即使这些语音具有不同的情感内容。
结论
在这项工作中,我们提出了一种文本转语音系统,该系统基于从自然语言提示中提取的嵌入进行条件化,这使得生成的语音的韵律参数能够以一种直观且有效的方式进行控制。提示嵌入与说话人嵌入连接起来,并作为输入提供给模型的编码器、解码器和韵律预测器。此外,我们提出的训练策略合并了情感语音和文本数据集,以获得相关的提示,这些提示在每次迭代中都会发生变化,从而提高了泛化能力,并降低了过拟合的风险。评估结果证实了通过提示进行的韵律可控性,同时保持了高语音质量和多说话人能力。
参考文献
[1] Y. Ren, C. Hu, X. Tan, T. Qin et al., “FastSpeech 2: Fast and High-Quality End-to-End Text to Speech,” arXiv:2006.04558, 2020.✅
[2] E. Kharitonov, D. Vincent, Z. Borsos, R. Marinier et al., “Speak, read and prompt: High-fidelity text-to-speech with minimal supervision,” arXiv:2302.03540, 2023.✅
[3] C. Wang, S. Chen, Y. Wu, Z. Zhang et al., “Neural Codec Language Models Are Zero-Shot Text to Speech Synthesizers, 2023,” URL: https://arxiv. org/abs/2301.02111. doi: doi, 2023.✅
[4] Y. Liu, Z. Xu, G. Wang, K. Chen et al., “DelightfulTTS: The Microsoft speech synthesis system for Blizzard Challenge 2021,” arXiv:2110.12612, 2021.✅
[5] X. Tan, J. Chen, H. Liu, J. Cong et al., “NaturalSpeech: End-to-End Text-to-Speech Synthesis with Human-Level Quality,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.✅
[6] A. Lancucki, “Fastpitch: Parallel Text-to-Speech with Pitch Prediction,” in ICASSP. IEEE, 2021.✅
[7] R. Skerry-Ryan, E. Battenberg, Y. Xiao, Y. Wang et al., “Towards end-to-end prosody transfer for expressive speech synthesis with tacotron,” in ICML. PMLR, 2018.✅
[8] Y. Wang, D. Stanton, Y. Zhang, R.-S. Ryan et al., “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in ICML. PMLR, 2018.✅
[9] Y. Yan, X. Tan, B. Li, T. Qin et al., “Adaspeech 2: Adaptive Text to Speech with Untranscribed Data,” in ICASSP, 2021.✅
[10] E. Casanova, J. Weber, C. D. Shulby, A. C. Junior et al., “Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone,” in ICML. PMLR, 2022.✅
[11] F. Lux, J. Koch, and N. T. Vu, “Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech,” in SLT. IEEE, 2023.✅
[12] M. Kim, S. J. Cheon, B. J. Choi, J. J. Kim et al., “Expressive Text-to-Speech Using Style Tag,” in Interspeech. ISCA, 2021.✅
[13] Y. Shin, Y. Lee, S. Jo, Y. Hwang et al., “Text-driven Emotional Style Control and Cross-speaker Style Transfer in Neural TTS,” in Interspeech. ISCA, 2022.✅
[14] Z. Guo, Y. Leng, Y. Wu, S. Zhao et al., “Prompttts: Controllable Text-To-Speech With Text Descriptions,” in ICASSP, 2023.✅
[15] D. Yang, S. Liu, R. Huang, G. Lei et al., “InstructTTS: Modelling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt,” arXiv, 2023.✅
[16] G. Liu, Y. Zhang, Y. Lei, Y. Chen et al., “PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions,” arXiv:2305.19522, 2023.✅
[17] Y. Leng, Z. Guo, K. Shen, X. Tan et al., “Prompttts 2: Describing and generating voices with text prompt,” arXiv:2309.02285, 2023.✅
[18] A. F. G. Leentjens, S. M. Wielaert, F. van Harskamp, and F. W. Wilmink, “Disturbances of affective prosody in patients with schizophrenia, a cross sectional study,” J Neurol Neurosurg Psychiatry, 1998.✅
[19] D. A. Sauter, F. Eisner, A. J. Calder, and S. K. Scott, “Perceptual Cues in Nonverbal Vocal Expressions of Emotion,” Quarterly Journal of Experimental Psychology, 2010.✅
[20] M. D. Pell and S. A. Kotz, “On the Time Course of Vocal Emotion Recognition,” PLoS ONE, 2011.✅
[21] J. Tu, Z. Cui, X. Zhou, S. Zheng et al., “Contextual Expressive Text-to-Speech,” arXiv:2211.14548, 2022.✅
[22] Y. Koizumi, H. Zen, S. Karita, Y. Ding et al., “Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations,” arXiv:2303.01664, 2023.✅
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决文本到语音(Text-to-Speech, TTS)系统中的情感控制问题。具体来说,它关注以下几个关键点:
论文通过提出一个基于情感丰富文本提示的条件系统,使用自然语言提示来引导TTS系统的韵律方面,从而解决了上述问题。该系统在情感语音和文本数据集上进行训练,并在每次训练迭代中变化提示,以提高模型的泛化能力。通过客观和主观的评估结果,论文证明了条件合成系统能够准确地将提示中的情感转移到语音中,同时保持了说话者身份的精确可追踪性以及整体语音质量和可理解性。
Q: 有哪些相关研究?
A: 论文中提到了多项相关研究,主要集中在使用自然语言提示或风格标签来控制文本到语音(TTS)系统的输出。以下是一些关键的相关研究:
这些研究为本文提出的系统提供了背景和基础,同时也展示了在TTS系统中使用自然语言提示或风格描述来控制语音输出的各种方法。本文提出的系统与这些相关工作相比,特别强调了通过情感丰富的文本提示来控制语音合成中的情感表达,并通过训练策略来提高模型的泛化能力。
Q: 论文如何解决这个问题?
A: 论文通过以下几个关键步骤解决了文本到语音系统中的情感控制问题:
通过这些方法,论文成功地展示了一个能够根据自然语言提示准确地将情感转移到合成语音中的TTS系统,同时保持了高语音质量和说话者身份的精确可追踪性。
Q: 论文做了哪些实验?
A: 论文中进行了以下实验来评估所提出的文本到语音(TTS)系统:
这些实验旨在全面评估所提出的TTS系统在不同方面的表现,包括说话者身份的保持、情感的准确传递、语音的自然度和用户对情感表达的感知。通过这些实验,论文展示了系统在实现情感控制的同时,能够保持高质量的语音输出。
Q: 有什么可以进一步探索的点?
A: 尽管这篇论文提出了一个有效的系统来控制文本到语音合成中的情感,但仍有一些潜在的研究方向可以进一步探索:
这些方向可以帮助推动情感TTS系统的发展,使其更加自然、准确和用户友好。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以概括为以下几个要点:
论文通过这些主要内容,展示了在TTS系统中实现情感控制的可能性,并为未来的研究提供了新的方向和工具。