近年来,提示工程(Prompt Engineering)已成为引导生成式机器学习模型输出的标准方法之一,因为它使用自然语言,直观易懂。本文介绍了一种基于情感丰富的文本嵌入的系统,该系统可以作为提示,用于控制语音合成系统的情感表达。该系统将说话人和提示的嵌入信息整合到基于Transformer的架构中,并在多个关键点进行融合。该方法在合并的情感语音和文本数据集上进行训练,并在每次训练迭代中随机更换提示,以提高模型的泛化能力。客观和主观评估结果表明,该条件合成系统能够将提示中存在的情感准确地传递到语音中。同时,该系统还能精确地控制说话人的身份,并保持高语音质量和清晰度。
文本转语音系统中的情感表达挑战
文本转语音 (TTS) 系统近年来取得了快速发展,可以合成出与人类说话者相媲美的自然和清晰的语音。然而,一对多映射问题仍然是 TTS 系统面临的基本挑战之一。这意味着,对于给定的输入文本,存在无限多种有效的语音实现方式,这些实现方式在韵律方面可能有所不同,包括说话风格、语调、重音或节奏。
为了解决这个问题,一种常用的方法是丰富输入端,即要编码的文本,并添加辅助韵律信息来减轻映射中的不匹配。这些额外的韵律信息通常可以在推理时进行控制。许多先前的方法依赖于参考音频来传递所需的说话风格。然而,这些方法要求用户在推理时提供具有所需标准的参考语音,而这些语音可能并不总是可用。
为了解决这个问题,最近的研究重点是使用自然语言描述来指导 TTS 系统中的韵律方面,这些系统是在带有风格描述的语音数据集上训练的。例如,Style Tagging TTS 引入了一种专门的损失函数,允许用户在推理时提供参考语音或风格标签。PromptTTS 在预定义的标签(如性别、音调、语速、音量和情感)上微调风格嵌入。PromptStyle 和 InstructTTS 引入了一种跨模态风格编码器,该编码器从语音中学习提示和风格嵌入的共享嵌入空间。然而,这些方法需要带有风格描述的数据集,而创建这些数据集成本很高。此外,手动提供的风格描述是有限的,因为它们通常遵循类似的模式。PromptTTS 2 试图通过从音频中标记性别和速度等语音特征,并根据这些特征自动生成描述性提示来克服这个问题,但这限制了它们的控制粒度。
情感 TTS:一种新兴的控制领域
由于情感状态是可以通过改变韵律特征来表达的最明显的方面之一,因此情感 TTS 是可控 TTS 中的一个重要子领域。在这方面,一些研究人员尝试从情感文本数据集中自动提取提示,并将它们与带有情感标签的语音样本进行匹配。
我们的方法遵循类似的策略,结合公开可用的情感语音和文本数据集,并获得音频和提示之间强烈的依赖关系。此外,在每次训练迭代中,提示都是从一个大型池中随机选择的,这提高了 TTS 系统的泛化能力,并降低了学习过于特定连接的风险。与将说话人身份建模到提示中的方法不同,我们的方法有效地结合了提示和说话人嵌入,从而实现精确的韵律和音色可控性。
我们的贡献
我们的主要贡献包括:
- 一种允许分别对说话人的声音和话语的韵律进行建模的架构,使用自然语言提示来控制后者。
- 一种学习强泛化提示条件的训练策略。
- 一个允许用户通过简单地使用要朗读的文本作为提示来生成具有合适韵律的语音的管道,而无需手动选择情感。
我们对我们的贡献进行了客观和主观评估,发现提示中存在的情感可以准确地传递到语音中,同时保持说话人身份的精确可控性和高语音质量。我们的所有代码和模型都可以在开源许可下获得。
系统架构
我们的系统基于 IMS Toucan 工具包,并对其进行了扩展,以便根据文本提示的情感内容对模型进行条件化。输入文本使用带有 eSpeak-NG 后端的音素器转换为音素序列。每个音素进一步转换为发音特征向量。频谱图帧由类似于 FastSpeech-2 的系统生成,该系统包括一个 Conformer 编码器和解码器,以及用于每个音素的持续时间、音调和能量的韵律预测器。为了提高高频细节,系统使用基于正则化流的后网络。最后,该系统通过来自对抗网络的鉴别器反馈进行训练,该网络被优化为区分真实和生成的频谱图。
自然语言提示被馈送到基于 DistilRoBERTa 模型的句子嵌入提取器中,该模型在情感分类任务上进行了微调。嵌入是从 [CLS] 标记的 756 维隐藏表示中获得的。由于情感分类是基于该标记的嵌入,因此它应该能够有效地捕获输入的情感内容的相关信息。这些提示嵌入进一步通过线性层传递,以使它们能够适应 TTS 目的,因为提示编码器在 TTS 训练期间不会更新。相反,说话人嵌入是从嵌入矩阵中获得的,该矩阵在 TTS 训练期间联合更新,以捕获不同的说话人身份。为了实现零样本语音适应,可以使用预训练的说话人嵌入函数,但为了简化研究,我们选择不使用它。提示和说话人嵌入被连接起来,并通过一个压缩和激励块传递。该组件对来自这两个来源的特征之间的相互依赖关系进行建模,并将它们投影到系统的隐藏维度中。使用压缩和激励块的动机来自一项内部试点研究,在该研究中,我们比较了使用各种形式的条件机制的有效性,例如连接后投影、加法、条件层归一化和压缩和激励块。尽管差异很小,但我们决定继续使用压缩和激励块,因为它在感知上略微更好地捕捉到条件信号中的细微差别。该块的输出是一个包含说话人身份和提示语义信息的表示。该表示通过将其作为辅助输入提供给编码器、解码器和韵律预测器来整合到 TTS 系统的管道中。在这些地方,它使用条件层归一化进行整合,这被证明在 TTS 管道中效果很好。在多个地方添加条件信号的动机来自 StyleTTS,他们认为模型很快就会忘记条件信号,需要不断地提醒它们,以便进行更准确的条件化。最后,频谱图使用带有 Avocado 鉴别器的 HiFi-GAN 生成器转换为波形。在推理过程中,该管道在 Nvidia GeForce RTX 2080 Ti GPU 上实现了 0.07 的实时因子,在 AMD EPYC 7542 CPU 上实现了 0.16 的实时因子,无需使用批处理。
训练过程
TTS 系统的训练通过课程学习进行,分为两个阶段。尽管在第一阶段仍然使用条件提示,但其主要目的是获得一个健壮且高质量的系统。因此,该阶段除了情感语音数据集之外,还包括 LJSpeech 和 LibriTTS-R. 大量训练样本和大量说话人对提高语音质量有利,并使系统对发音错误更加健壮。由于 LJSpeech 和 LibriTTS-R 不包含情感标签,因此提示嵌入是从相应的语音中提取的。在第二阶段,模型仅使用情感语音数据集进行训练,使其能够专注于学习提示嵌入和语音情感之间的联系。对于每个训练样本,根据情感标签从 10k 个可用提示嵌入中随机选择一个。这确保了提示和语音情感之间的高度对应,并且还具有以下优点:它看到了大量不同的提示,这降低了过拟合的风险,并提高了系统的泛化能力,以便在推理时可以使用任意提示。整个系统在第一阶段训练了 120k 步,在第二阶段在单个 Nvidia GeForce RTX A6000 GPU 上训练了额外的 80k 步。✅
评估结果
为了评估我们的系统,我们将其与基线系统进行了比较,该系统遵循完全相同的架构,但缺少条件化提示嵌入。此外,我们在客观评估中还纳入了 EmoSpeech,该系统将 FastSpeech 2 架构条件化为 ESD 的离散情感标签。对于我们的条件提示系统,测试句子使用句子本身作为提示以及使用带有不同情感的句子作为提示进行合成。这使我们能够评估生成的语音情感是否依赖于提供的提示嵌入。我们还将所有真实语音样本通过 TTS 系统的声码器,以便与合成语音进行公平比较。来自 ESD 的说话人身份用于评估目的,包括情感类别:愤怒、快乐、中性、悲伤和惊讶。
多说话人能力
我们计算说话人相似度,即真实语音样本和合成语音样本的说话人嵌入之间的余弦相似度。由此,说话人嵌入使用预训练的说话人验证模型进行提取。表 2 中的结果显示了 ESD 中所有说话人之间的高整体说话人相似度,表明说话人身份在合成过程中几乎完全保留,不受提示嵌入整合的影响。与 EmoSpeech 相比,我们提出的系统和我们的基线系统都表现得明显更好。这可能是由于我们在课程学习过程中使用了多说话人训练阶段。
韵律可控性
我们使用在 ESD 上训练的辅助语音情感识别模型来预测合成语音的情感标签,并将这些标签与应用提示的真实标签进行比较。图 3 中的混淆矩阵说明了预测情感标签相对于基础标签的相对频率。此外,作为情感标签之间关联强度的度量,我们计算了 Cramér’s V. 结果如表 3 所示。情感识别模型对真实语音实现了总体高准确率和高关联强度,表明情感通常可以可靠地识别。考虑到这一点,条件提示系统中基础情感标签和预测情感标签之间的强一致性表明,提示的情感内容被准确地传递到语音中。此外,语音韵律完全依赖于提供的提示,不受合成语音的输入文本的影响,如将来自不同情感类别的提示和输入文本组合时的高准确率所揭示(“条件提示其他”)。相反,对于基线系统,预测的情感类别主要是悲伤和中性,表明生成的语音几乎没有韵律变化,而与输入文本的情感内容无关。这些观察结果进一步得到了条件提示系统的 Cramér’s V 值的证实,这些值与真实值相当,遵循 α = 0.005 的学生 t 检验。EmoSpeech 产生了非常强劲的结果,甚至超过了真实值。然而,它仅限于离散情感标签,而我们的系统捕获了一个连续空间,不需要手动选择适当的情感。这相对于 EmoSpeech 等专门系统的最新技术具有很大优势,但代价是情感准确率略有下降。✅
主观评估
由于我们在一个小规模的试点研究中注意到 EmoSpeech 的质量和清晰度差异很大,因此我们选择将其从主观评估中排除,以防止出现天花板效应。因此,我们在以下内容中仅将我们提出的系统与基线系统和人类录音进行比较。我们进行了一项听力研究,共有 82 名参与者参与,使用来自 ESD 的女性和男性说话人身份生成的测试句子,并使用不同的提示。
语音质量
我们要求参与者在 5 分制上对语音质量进行评分,考虑自然度、流畅度和清晰度。基于 656 次评分的平均意见评分 (MOS) 研究结果(表 4)表明,来自基线系统和我们提出的系统的合成语音与真实语音相比略有下降,但差异不显著,并且彼此之间也没有显著差异(遵循 α = 0.005 的学生 t 检验)。我们得出结论,添加提示条件化不会影响 TTS 系统的感知自然度。
情感风格迁移
最后,参与者被展示来自条件提示系统的合成语音,其中相同的提示用于多个具有不匹配情感内容的语音,并被要求在 5 分制上对语音样本相对于提示的韵律实现的相似度进行评分。我们收到了 320 个韵律相似度评分。结果如表 5 所示。两个说话人之间总体上很高的评分表明,该模型准确地遵循了提示来实现语音情感,并且该情感可以有效地通过使用相同的提示传递到任意语音中,即使这些语音具有不同的情感内容。
结论
在这项工作中,我们提出了一种文本转语音系统,该系统基于从自然语言提示中提取的嵌入进行条件化,这使得生成的语音的韵律参数能够以一种直观且有效的方式进行控制。提示嵌入与说话人嵌入连接起来,并作为输入提供给模型的编码器、解码器和韵律预测器。此外,我们提出的训练策略合并了情感语音和文本数据集,以获得相关的提示,这些提示在每次迭代中都会发生变化,从而提高了泛化能力,并降低了过拟合的风险。评估结果证实了通过提示进行的韵律可控性,同时保持了高语音质量和多说话人能力。
参考文献
[1] Y. Ren, C. Hu, X. Tan, T. Qin et al., “FastSpeech 2: Fast and High-Quality End-to-End Text to Speech,” arXiv:2006.04558, 2020.✅
[2] E. Kharitonov, D. Vincent, Z. Borsos, R. Marinier et al., “Speak, read and prompt: High-fidelity text-to-speech with minimal supervision,” arXiv:2302.03540, 2023.✅
[3] C. Wang, S. Chen, Y. Wu, Z. Zhang et al., “Neural Codec Language Models Are Zero-Shot Text to Speech Synthesizers, 2023,” URL: https://arxiv. org/abs/2301.02111. doi: doi, 2023.✅
[4] Y. Liu, Z. Xu, G. Wang, K. Chen et al., “DelightfulTTS: The Microsoft speech synthesis system for Blizzard Challenge 2021,” arXiv:2110.12612, 2021.✅
[5] X. Tan, J. Chen, H. Liu, J. Cong et al., “NaturalSpeech: End-to-End Text-to-Speech Synthesis with Human-Level Quality,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.✅
[6] A. Lancucki, “Fastpitch: Parallel Text-to-Speech with Pitch Prediction,” in ICASSP. IEEE, 2021.✅
[7] R. Skerry-Ryan, E. Battenberg, Y. Xiao, Y. Wang et al., “Towards end-to-end prosody transfer for expressive speech synthesis with tacotron,” in ICML. PMLR, 2018.✅
[8] Y. Wang, D. Stanton, Y. Zhang, R.-S. Ryan et al., “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in ICML. PMLR, 2018.✅
[9] Y. Yan, X. Tan, B. Li, T. Qin et al., “Adaspeech 2: Adaptive Text to Speech with Untranscribed Data,” in ICASSP, 2021.✅
[10] E. Casanova, J. Weber, C. D. Shulby, A. C. Junior et al., “Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone,” in ICML. PMLR, 2022.✅
[11] F. Lux, J. Koch, and N. T. Vu, “Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech,” in SLT. IEEE, 2023.✅
[12] M. Kim, S. J. Cheon, B. J. Choi, J. J. Kim et al., “Expressive Text-to-Speech Using Style Tag,” in Interspeech. ISCA, 2021.✅
[13] Y. Shin, Y. Lee, S. Jo, Y. Hwang et al., “Text-driven Emotional Style Control and Cross-speaker Style Transfer in Neural TTS,” in Interspeech. ISCA, 2022.✅
[14] Z. Guo, Y. Leng, Y. Wu, S. Zhao et al., “Prompttts: Controllable Text-To-Speech With Text Descriptions,” in ICASSP, 2023.✅
[15] D. Yang, S. Liu, R. Huang, G. Lei et al., “InstructTTS: Modelling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt,” arXiv, 2023.✅
[16] G. Liu, Y. Zhang, Y. Lei, Y. Chen et al., “PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions,” arXiv:2305.19522, 2023.✅
[17] Y. Leng, Z. Guo, K. Shen, X. Tan et al., “Prompttts 2: Describing and generating voices with text prompt,” arXiv:2309.02285, 2023.✅
[18] A. F. G. Leentjens, S. M. Wielaert, F. van Harskamp, and F. W. Wilmink, “Disturbances of affective prosody in patients with schizophrenia, a cross sectional study,” J Neurol Neurosurg Psychiatry, 1998.✅
[19] D. A. Sauter, F. Eisner, A. J. Calder, and S. K. Scott, “Perceptual Cues in Nonverbal Vocal Expressions of Emotion,” Quarterly Journal of Experimental Psychology, 2010.✅
[20] M. D. Pell and S. A. Kotz, “On the Time Course of Vocal Emotion Recognition,” PLoS ONE, 2011.✅
[21] J. Tu, Z. Cui, X. Zhou, S. Zheng et al., “Contextual Expressive Text-to-Speech,” arXiv:2211.14548, 2022.✅
[22] Y. Koizumi, H. Zen, S. Karita, Y. Ding et al., “Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations,” arXiv:2303.01664, 2023.✅
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决文本到语音(Text-to-Speech, TTS)系统中的情感控制问题。具体来说,它关注以下几个关键点:
- 多对一映射问题:对于给定的文本输入,存在无限多种有效的发音实现方式,这些实现方式在韵律上可能有所不同,比如说话风格、语调、重音或节奏等。这个问题是TTS系统设计中的一个基本挑战。
- 情感表达的可控性:情感是可以通过变化韵律特征来表达的最明显方面之一,因此,情感TTS是可控TTS的一个重要子领域。论文提出的方法旨在通过自然语言提示来控制合成语音中的情感。
- 数据集限制:以往的一些方法依赖于带有风格描述的参考音频或手动提供的风格描述,这些通常需要昂贵的创建成本,并且手动提供的风格描述可能受限,因为它们通常遵循类似的模式。
- 泛化能力:为了提高TTS系统的泛化能力,减少学习过于特定连接的风险,论文提出在每次训练迭代中从大量提示中随机选择提示。
论文通过提出一个基于情感丰富文本提示的条件系统,使用自然语言提示来引导TTS系统的韵律方面,从而解决了上述问题。该系统在情感语音和文本数据集上进行训练,并在每次训练迭代中变化提示,以提高模型的泛化能力。通过客观和主观的评估结果,论文证明了条件合成系统能够准确地将提示中的情感转移到语音中,同时保持了说话者身份的精确可追踪性以及整体语音质量和可理解性。
Q: 有哪些相关研究?
A: 论文中提到了多项相关研究,主要集中在使用自然语言提示或风格标签来控制文本到语音(TTS)系统的输出。以下是一些关键的相关研究:
- Style Tag TTS [12]:引入了一种专门的损失函数,允许在推理时提供参考语音或风格标签。
- PromptTTS [14]:在预定义的标签(如性别、音调、说话速度、音量和情感)上微调风格嵌入。
- PromptStyle [16] 和 InstructTTS [15]:引入了一个跨模态风格编码器,从语音中学习提示和风格嵌入的共享嵌入空间。
- PromptTTS 2 [17]:尝试通过从音频中自动标记声音特征(如性别和速度)并基于这些属性自动生成描述性提示来克服数据集限制问题,但这限制了它们控制的粒度。
- EmoSpeech [21]:从情感文本数据集中自动提取提示,并将它们与带有情感标签的语音样本匹配。
- 其他研究 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]:这些研究涵盖了TTS系统的不同方面,包括提高自然性、可理解性、多说话者能力、风格转移和零样本学习能力。
这些研究为本文提出的系统提供了背景和基础,同时也展示了在TTS系统中使用自然语言提示或风格描述来控制语音输出的各种方法。本文提出的系统与这些相关工作相比,特别强调了通过情感丰富的文本提示来控制语音合成中的情感表达,并通过训练策略来提高模型的泛化能力。
Q: 论文如何解决这个问题?
A: 论文通过以下几个关键步骤解决了文本到语音系统中的情感控制问题:
- 自然语言提示的条件系统:提出了一个系统,该系统基于从情感丰富的文本中派生的嵌入向量作为提示,这些嵌入向量与说话者嵌入相结合,共同作用于基于Transformer的架构的多个点。
- 联合表示的整合:在模型训练过程中,将说话者和提示嵌入的联合表示整合到TTS系统的编码器、解码器和韵律预测器中。
- 训练策略:采用课程学习方法,分为两个阶段。第一阶段使用大量非情感标注的语音数据(如LJSpeech和LibriTTS-R. ,以获得高质量和鲁棒的系统。第二阶段仅使用情感标注的语音数据集,专注于学习提示嵌入与语音情感之间的联系。✅
- 随机选择提示:在每次训练迭代中,从大量可用的提示中随机选择一个与当前语音样本情感标签相匹配的提示,这有助于提高系统的泛化能力,减少过拟合的风险。
- 多情感数据集训练:使用多个情感标注的数据集(如ESD、RAVDESS和TESS)进行训练,以确保模型能够学习和模拟不同情感的韵律特征。
- 评估:通过客观和主观的评估方法来验证系统的性能。客观评估包括使用情感识别模型来预测合成语音的情感标签,并与提示的情感标签进行比较。主观评估则通过听音测试来评估合成语音的自然度、流畅度和可理解性。
- 开源代码和模型:论文提供了所有代码和模型的开源许可,以便其他研究人员可以复现和利用这些研究成果。
通过这些方法,论文成功地展示了一个能够根据自然语言提示准确地将情感转移到合成语音中的TTS系统,同时保持了高语音质量和说话者身份的精确可追踪性。
Q: 论文做了哪些实验?
A: 论文中进行了以下实验来评估所提出的文本到语音(TTS)系统:
- 多说话者能力评估(Multi-Speaker Capabilities):
- 计算真实说话者和合成语音之间的说话者相似度,使用余弦相似度来衡量。
- 使用预训练的说话人验证模型提取说话者嵌入。
- 韵律控制能力评估(Prosody Controllability):
- 使用辅助情感识别模型来预测合成语音的情感标签,并与应用的提示的真实情感标签进行比较。
- 通过混淆矩阵展示预测情感标签与真实标签之间的相对频率。
- 计算Cramér’s V值来衡量预测情感标签与真实标签之间的关联强度。
- 客观评估(Objective Evaluation):
- 将所提出的TTS系统与基线系统(没有提示条件的相同架构)进行比较。
- 包括EmoSpeech在内的客观评估,EmoSpeech是一个条件FastSpeech 2架构在ESD数据集上的离散情感标签的系统。
- 主观评估(Subjective Evaluation):
- 进行了听音测试,共有82名参与者,使用来自ESD的男性和女性说话者身份生成的测试句子,并变化提示。
- 评估合成语音的质量,包括自然度、流畅度和可理解度,使用5点量表进行评分。
- 评估情感风格转移,让参与者评估合成语音与提示在韵律实现方面的相似度。
- 情感风格转移的相似度评分(Emotional Style Transfer):
- 参与者对使用相同提示但不同输入文本的多个话语样本进行韵律相似度评分。
这些实验旨在全面评估所提出的TTS系统在不同方面的表现,包括说话者身份的保持、情感的准确传递、语音的自然度和用户对情感表达的感知。通过这些实验,论文展示了系统在实现情感控制的同时,能够保持高质量的语音输出。
Q: 有什么可以进一步探索的点?
A: 尽管这篇论文提出了一个有效的系统来控制文本到语音合成中的情感,但仍有一些潜在的研究方向可以进一步探索:
- 更细粒度的情感控制:当前系统可能能够处理基本的情感类别,但更细致的情感变化(如不同程度的喜悦或悲伤)可能需要更深入的研究。
- 多模态情感分析:结合语音的声学特征和文本内容的语义信息,以更准确地理解和表达情感。
- 个性化语音合成:研究如何根据用户的个性或偏好定制语音合成的情感和风格。
- 上下文感知的TTS:开发能够理解并响应对话上下文或文本情境的TTS系统,以更自然地融入对话或叙述。
- 跨语言情感表达:研究不同语言中情感表达的差异,并探索如何在多语言TTS系统中实现这些差异。
- 实时性能优化:尽管论文提到了实时因子,但进一步优化系统的实时性能,特别是在资源受限的设备上,仍然是一个值得探索的领域。
- 更广泛的用户研究:进行更大规模的用户研究,以评估不同背景和需求的用户对合成语音情感表达的接受度和偏好。
- 情感识别与反馈机制:集成情感识别技术,允许系统根据用户的情感反应调整其输出。
- 鲁棒性与错误处理:研究系统在处理错误输入、不清晰发音或非标准语言使用情况下的鲁棒性。
- 伦理和隐私问题:探讨在TTS系统中使用情感和个人化特征时可能出现的伦理和隐私问题,并制定相应的指导原则。
- 多任务学习:探索是否可以将情感控制与其他TTS任务(如语音识别、语言理解等)结合起来,以提高系统的整体性能。
- 可解释性和透明度:提高系统决策过程的可解释性,使用户能够理解TTS系统如何生成特定情感表达。
这些方向可以帮助推动情感TTS系统的发展,使其更加自然、准确和用户友好。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以概括为以下几个要点:
- 问题背景:随着文本到语音(TTS)系统的发展,尽管自然度和可理解性已有显著提升,但如何控制语音的韵律特征,尤其是情感表达,仍是一个挑战。
- 研究目标:提出一个系统,通过自然语言提示来控制TTS输出中的情感,以实现更准确的情感转移和高质量的语音合成。
- 方法论:
- 使用情感丰富的文本作为提示,提取嵌入向量。
- 将提示嵌入与说话者嵌入相结合,整合到基于Transformer的TTS架构中。
- 在训练过程中采用课程学习,先使用大量非情感标注数据,再专注于情感标注数据。
- 系统架构:介绍了TTS系统的具体架构,包括输入文本的处理、特征提取、编码器-解码器结构、韵律预测、后处理网络等组件。
- 训练策略:采用分阶段训练方法,首先训练一个鲁棒的基线系统,然后专注于情感的学习和泛化。
- 数据集:使用了多个公开的语音和文本数据集,包括情感标注和非情感标注的数据,以支持模型的训练和评估。
- 实验评估:
- 客观评估:通过计算说话者相似度、情感识别模型的预测与真实标签的关联强度等。
- 主观评估:通过听音测试评估语音的自然度、流畅度和可理解性,以及情感风格转移的能力。
- 结果:实验结果表明,所提出的系统能够有效地将提示中的情感转移到合成语音中,同时保持了高语音质量和说话者身份的精确控制。
- 贡献:论文的贡献包括提出的架构设计、训练策略和评估方法,以及开源的代码和模型,为未来研究提供了基础。
- 结论:提出的TTS系统通过自然语言提示实现了对合成语音情感的有效控制,具有较高的泛化能力和语音质量。
论文通过这些主要内容,展示了在TTS系统中实现情感控制的可能性,并为未来的研究提供了新的方向和工具。