java - 在 Java 中尽可能流畅地播放 ogg 声音 - TTS 应用程序

Question

我正在为我自己的 Java 语言开发文本到语音转换 (TTS)（它是一个以前没有开发过的最终项目，因此我不能使用内置类）。

我可以识别输入文本的双音素。

为了演奏，我在输入文本分析完成后将双音素放在一个数组中。之后，我根据数组中的双音素（一个接一个）播放音频文件（ogg 格式）。

我想问的是，您对这种单独演奏双音素的方法有何看法？现在我在播放我试图平滑的每个音频剪辑之间有（很大的）差距。有任何想法吗？

score 1 · Accepted Answer

在双音素合成中，通常将双音素在最稳定的音素中间分割，然后将它们缝合在一起。因此，例如，为了合成“会议”这个词，我会从一个音素开始m iy（在 ARPAbet 符号中），然后在中间切断它iy并拼接成一个iy dx双音素，其中两个音素都被分成两半，依此类推, 以一个ix ng双音素结尾，其中 theng是完整的。

为了做到这一点，您需要知道每个 .ogg 中对应于连续音素中间或停止和释放之间的间隙的时间索引。

java - 在 Java 中尽可能流畅地播放 ogg 声音 - TTS 应用程序

1 回答 1

Related

Reference