2

我目前正在研究用于文本到语音的循环神经网络,但我被困在某一点上。

我有一些输入文件,它们具有尺寸为 490 的文本(音素等)的特征。输出文件是 mgc(60-d)、bap(25-d) 和 lf0(1-d)。mgc 和 bap 文件没问题,因为值之间没有大的差距。我可以以合理的时间和准确性训练他们。输入和输出是顺序的并且正确对齐,例如如果输入的形状是 (300, 490),那么 mgc、bap 和 lf0 的形状是 (300, 60)、(300, 25) 和 (300, 1),分别。

我的问题是lf0(我想是基频的对数)。这些值例如 [0.23, 1.2, 0.54, 3.4, -10e9, -10e9, -10e9, 3.2, 0.25]。我尝试使用 MSE 对其进行训练,但错误太高而且根本没有减少。

lf0 的情节

我想听听关于这个问题的任何建议。我对任何事情都持开放态度。

PS:我使用 2 个 gru 层,每个层有 256 或 512 个单元。

4

0 回答 0