13

就像一个人能够使用各种语音到文本的“听写”工具将口语转换成相应的文本一样,我想知道是否有类似的工具可以将口语转换成相应的 SSML。也就是说,除了与说话者声音中存在的任何语调、韵律、停顿/中断、变形等相关的 SSML 标签之外,它还将提供文本。

4

1 回答 1

0

我致力于构建语音应用程序。在我最近的一个项目中,我们需要文本听起来完全正确,包括所有相关的语调、韵律、停顿/中断、变形等。在广泛的研究中,我们发现让文本听起来像的唯一方法由真人说话是使用 SSML(仍然不完美)或录制的 mp3。

如果你想让一个项目有真实的人感觉,执行它的最好方法是利用一个人。我建议您录制 mp3(/让专业人士录制),而不是尝试从语音中获取 SSML。

我们使用 SSML 的原因正是因为计算机无法理解人类语音的相关语调、韵律、停顿/中断、变形等。

如果您的目标是获得 SSML,那么最好的方法是将文本转换为 SSML。为此,我建议在这里看看:

W3C SSML

谷歌 SSML

亚马逊 SSML

据我们所知,这是 2018 年 7 月中旬。如果有人有更多信息,请随时添加到这个答案中。

希望这会有所帮助:3

于 2018-07-13T04:11:02.110 回答