我想使用 Amazon Polly 生成听起来非常逼真的语音 - 比允许 Amazon Polly 从正常文本输入生成语音音频输出所产生的结果更真实。为了做到这一点,我想告诉 Polly 尽最大努力精确匹配由配音演员配音/录制的真实语音音频文件输入的给定样本。换句话说,我想将配音演员产生的有声语音转换为适合作为 polly api 输入的某种代码(例如音素、时间代码等)序列,然后可以生成音频文件输出应尽可能模仿原始记录的输入。
某些 AWS api 是否将语音音频文件作为输入,并将其转换为一系列代码(例如音素和时间信息),然后可以将其输入 polly api 以生成相应的语音?如果没有,是否还有其他适合用于第一步的 api?
为什么?使用 Polly 以“正常方式”创建语音——通过将文本输入 polly api——往往会产生听起来不够自然的语音(尽管它可能是目前可用的最好的文本到语音引擎)。Polly API 语音产生的“正常方式”没有正确的时间/韵律。我们尝试手动将语音逐字转换为音素并手动添加计时信息,然后将其作为输入输入 Polly API,但这既非常费力,也不会产生非常令人满意的结果。我们已经在应用程序中使用了它。对于演讲中特别重要的部分,我们需要得到更好的质量。我们不能像在其他情况下那样使用配音演员录制的音频,因为那样它就不会匹配由 Polly API 生成的其余语音。
顺便说一句,在你投票反对这篇文章之前,因为它不包含一点代码片段......考虑这仍然是一个编码问题,只是不是以“帮助我编辑我的代码片段来做 x”的形式 - 虽然如果存在这样的答案,则代码片段答案将是该问题答案的一种很好的形式!这实际上是一个广泛重要且普遍的编码问题,可能会影响任何需要通过代码创建逼真语音的编码器。
谢谢