text-to-speech - 说话人自适应训练和说话人依赖训练的目的是什么？

Question

我正在尝试为印度口音英语（不是任何印度语言）创建一个 TTS 引擎。

我已经有一个印度口音英语的录音数据库。那么接下来的步骤是什么？

我认为我们需要用“.lab”扩展文件标记它们（好吧，我真的不知道！）。带有“.utts”扩展名的文件是什么？

在使用 HMM 实现 TTS 引擎时，说话人自适应训练和说话人依赖训练的目的是什么？

我用谷歌搜索了很多，但找不到详细的解释。（我只能找到一些与之相关的论文和期刊）

如果您可以向我们提供资源链接，指导我使用 Hidden Marvkov 模型创建自定义 TTS，那将非常有帮助。

谢谢你。

score 1 · Accepted Answer

Festival是一个很好的级联语音合成工具，它也使用了 HMM。
HTS是另一个很好的基于 HMM 的合成器。

.lab或.phn文件是标签文件，其中每个单词都被拆分为音素，并带有相应的音频时间戳。例如，对于包含单词“this”的音频文件，标签文件可以是：

0.28 0.35 sil
0.35 0.42 dh
0.42 0.5 i
0.5 0.61 s

其中数字是音素发音的开始和结束时间（以秒为单位）。

.utt是在考虑所有信息（如重音、词性、语调、持续时间等）之后形成的话语文件。然后这些文件可用于语音输出（播放话语）

合成语音的质量取决于用于训练的音频集。说话者自适应训练使模型适应具有不同声音和口音/方言的说话者。在针对不同声音的说话人相关训练的情况下，训练单独的模型。

您可以通过Festival Manual了解如何设置语音合成管道。Festival 与 HTS 一起用于前端文本分析（创建字典、单词到音素等），而 HTS 用于基于 HMM 的语音建模。

1 回答 1