2

我正在为我自己的 Java 语言开发文本到语音转换 (TTS)(它是一个以前没有开发过的最终项目,因此我不能使用内置类)。

我可以识别输入文本的双音素。

为了演奏,我在输入文本分析完成后将双音素放在一个数组中。之后,我根据数组中的双音素(一个接一个)播放音频文件(ogg 格式)。

我想问的是,您对这种单独演奏双音素的方法有何看法?现在我在播放我试图平滑的每个音频剪辑之间有(很大的)差距。有任何想法吗?

4

1 回答 1

1

在双音素合成中,通常将双音素在最稳定的音素中间分割,然后将它们缝合在一起。因此,例如,为了合成“会议”这个词,我会从一个音素开始m iy(在 ARPAbet 符号中),然后在中间切断它iy并拼接成一个iy dx双音素,其中两个音素都被分成两半,依此类推, 以一个ix ng双音素结尾,其中 theng是完整的。

为了做到这一点,您需要知道每个 .ogg 中对应于连续音素中间或停止和释放之间的间隙的时间索引。

于 2012-02-25T13:00:20.020 回答