text-to-speech - 为 MarryTTS 训练新声音时观察序列太少

Question

我正在尝试用德语为 MaryTTS 建立一个新的声音一段时间，但到目前为止还没有成功。我遵循了一个教程（https://github.com/marytts/marytts/wiki/HMMVoiceCreation）并试图理解每个步骤。无论我做什么，我都会卡在第 14 步（HMMVoiceMakeVoice），错误是：

错误 [+2121] HInit：观察序列太少

这通常意味着在我的数据集中找不到被测手机（本例中为 en9）。

更改语言环境后，正如 Nikolay Shmyrev 指出的那样，手机“de27”上发生了同样的错误。

不过我对此表示怀疑，因为我使用了大约 500 个音频文件，这些文件的长度至少为 5 秒，因此总共有一个多小时的镜头。

事实上，我跳过了“en9”电话，因为我不知道它到底代表什么。下一个失败的是“oI”，我在前几个音频文件中手动定位了大约十次。

我认为这与自动标记无法正常工作有关（步骤 2-4），但我不知道，我能做些什么来获得更好的结果？

编辑：我上传了在这一步之前获得的所有文件，可以在这个共享的谷歌驱动器上检查这些文件。请注意，出于版权原因，我无法上传 wav 文件夹。在日志目录中，您可以找到每个步骤之后的日志。我在那里找不到任何问题，但也许有人会。

我不完全理解生成数据的结构，但我认为更改MARYBASE/mary/trickyPhones.txt并再次运行 make 工具足以将地图名称从“tS”更改为“Z”，这在德语中听起来大致相同。但是 HMMVoiceMakeVoice 仍然会产生相同的输出。

text-to-speech - 为 MarryTTS 训练新声音时观察序列太少

0 回答 0

Related

Reference