只是做一些一般性的研究。是否有任何开源(甚至付费?)工具/程序可以执行以下操作:
输入:一些未标记语音的音频文件,可能有几句话长,(没有说明音频中的音标是什么)
输出:带有音标的音频文件(在 IPA 字母表中)对齐并标记在音频上
是否可以仅使用语音词典而不使用单词词典来完成?
只是做一些一般性的研究。是否有任何开源(甚至付费?)工具/程序可以执行以下操作:
输入:一些未标记语音的音频文件,可能有几句话长,(没有说明音频中的音标是什么)
输出:带有音标的音频文件(在 IPA 字母表中)对齐并标记在音频上
是否可以仅使用语音词典而不使用单词词典来完成?
Sphinx 有一个全电话功能,可以产生这种输出假设。但是大多数语音识别通过使用语音词典和 n-gram 语言模型得到了很大的改进。可以在创建假设时使用这些东西,然后使用 Sphinx 将其转换为标记的对齐音素。
这是一个仅用于语音内容的示例。
http://cmusphinx.sourceforge.net/wiki/phonemerecognition
但我已经很久没有参加演讲比赛了。我相信大多数人现在都在为这些概念追求神经网络,我不知道那个领域有任何开放的神经网络。