我正在玩语音识别。是否可以将语音拆分为多个单词?
如果可能,请向我推荐支持将语音拆分为单词的库。
谢谢
如果您知道说话者所说的内容,您可以执行强制对齐以生成单词(或音素)时间对齐。CMU Sphinx、HTK和Kaldi等工具包可以执行此操作。如果不知道说话者说了什么,您可以执行标准语音识别并使用时间信息来获取单词边界,尽管识别输出中可能存在错误。
没有关于已发音的短语的先验信息,这项任务非常具有挑战性。作为一种方法,您可以尝试将 VAD 应用于语音并通过停顿将声音分成单词。但是在自发讲话的情况下,人们通常不会在某些单词之间进行间隔。所以肯定会有问题。
这里建议使用一些 VAD 库。