speech-recognition - 使用 Amazon Polly Text to Speech 从音频文件中模仿真实语音波形的语调

Question

我想使用 Amazon Polly 生成听起来非常逼真的语音 - 比允许 Amazon Polly 从正常文本输入生成语音音频输出所产生的结果更真实。为了做到这一点，我想告诉 Polly 尽最大努力精确匹配由配音演员配音/录制的真实语音音频文件输入的给定样本。换句话说，我想将配音演员产生的有声语音转换为适合作为 polly api 输入的某种代码（例如音素、时间代码等）序列，然后可以生成音频文件输出应尽可能模仿原始记录的输入。

某些 AWS api 是否将语音音频文件作为输入，并将其转换为一系列代码（例如音素和时间信息），然后可以将其输入 polly api 以生成相应的语音？如果没有，是否还有其他适合用于第一步的 api？

为什么？使用 Polly 以“正常方式”创建语音——通过将文本输入 polly api——往往会产生听起来不够自然的语音（尽管它可能是目前可用的最好的文本到语音引擎）。Polly API 语音产生的“正常方式”没有正确的时间/韵律。我们尝试手动将语音逐字转换为音素并手动添加计时信息，然后将其作为输入输入 Polly API，但这既非常费力，也不会产生非常令人满意的结果。我们已经在应用程序中使用了它。对于演讲中特别重要的部分，我们需要得到更好的质量。我们不能像在其他情况下那样使用配音演员录制的音频，因为那样它就不会匹配由 Polly API 生成的其余语音。

顺便说一句，在你投票反对这篇文章之前，因为它不包含一点代码片段......考虑这仍然是一个编码问题，只是不是以“帮助我编辑我的代码片段来做 x”的形式 - 虽然如果存在这样的答案，则代码片段答案将是该问题答案的一种很好的形式！这实际上是一个广泛重要且普遍的编码问题，可能会影响任何需要通过代码创建逼真语音的编码器。

谢谢

score -2 · Accepted Answer

某些 AWS api 是否将语音音频文件作为输入，并将其转换为一系列代码（例如音素和时间信息），然后可以将其输入 polly api 以生成相应的语音？

您是否真的认为亚马逊创建了一些秘密 API 对用户隐藏了它，但一些勇敢的黑客会在这里向您透露未记录的 API 访问代码？

如果没有，是否还有其他适合用于第一步的 api？

这存在于开源中，当然与AWS无关

https://github.com/KinglittleQ/GST-Tacotron

speech-recognition - 使用 Amazon Polly Text to Speech 从音频文件中模仿真实语音波形的语调

1 回答 1

Related

Reference