0

我正在尝试为印度口音英语(不是任何印度语言)创建一个 TTS 引擎。

我已经有一个印度口音英语的录音数据库。那么接下来的步骤是什么?

我认为我们需要用“.lab”扩展文件标记它们(好吧,我真的不知道!)。带有“.utts”扩展名的文件是什么?

在使用 HMM 实现 TTS 引擎时,说话人自适应训练和说话人依赖训练的目的是什么?

我用谷歌搜索了很多,但找不到详细的解释。(我只能找到一些与之相关的论文和期刊)

如果您可以向我们提供资源链接,指导我使用 Hidden Marvkov 模型创建自定义 TTS,那将非常有帮助。

谢谢你。

4

1 回答 1

1

Festival是一个很好的级联语音合成工具,它也使用了 HMM。
HTS是另一个很好的基于 HMM 的合成器。

.lab.phn文件是标签文件,其中每个单词都被拆分为音素,并带有相应的音频时间戳。例如,对于包含单词“this”的音频文件,标签文件可以是:

0.28 0.35 sil
0.35 0.42 dh
0.42 0.5 i
0.5 0.61 s

其中数字是音素发音的开始和结束时间(以秒为单位)。

.utt是在考虑所有信息(如重音、词性、语调、持续时间等)之后形成的话语文件。然后这些文件可用于语音输出(播放话语)

合成语音的质量取决于用于训练的音频集。说话者自适应训练使模型适应具有不同声音和口音/方言的说话者。在针对不同声音的说话人相关训练的情况下,训练单独的模型。

您可以通过Festival Manual了解如何设置语音合成管道。Festival 与 HTS 一起用于前端文本分析(创建字典、单词到音素等),而 HTS 用于基于 HMM 的语音建模。

于 2015-07-07T10:52:51.460 回答