5

我想做的是创建一个将人类语音转换为 IPA(国际音标)格式的 API。我的问题是,关于如何在原始音频波形级别解码语音的资源在哪里。我寻找了一个 API,但我发现的大部分内容都直接翻译成罗马字母。我希望在区分语音的能力方面创造一些更准确的东西。

4

1 回答 1

4

我只想首先说这个项目比你想象的要困难和复杂得多。语音到文本处理是一个非常庞大且复杂的领域,已经进行了大量的研究。大多数解析器将内容直接发送到罗马字符的原因是因为它们的大部分处理是模糊声音与其他模糊声音的上下文的概率匹配,以猜测哪些单词一起有意义。您更有可能找到可以为您提供 Soundex 而不是 IPA 的东西。也就是说,这是一个在多个方面都已解决的问题。您最好的选择可能是 CMU 的 Sphinx 项目。

http://cmusphinx.sourceforge.net/wiki/start

这将为您提供一个良好的开端,但您假设语音到文本的处理比实际要发达得多,并且没有简单的方法可以通过波形以任何精度将语音转换为 IPA。Sphinx 是非常模块化且完全开源的,因此它可以为您提供触手可及的巨大功能,此时您是否能够弄清楚如何使这项工作取决于您,但又一次。无论如何,这都不是一个已解决的问题。

于 2012-07-19T18:02:01.703 回答