split - 如何将演讲拆分为单词

Question

我正在玩语音识别。是否可以将语音拆分为多个单词？

如果可能，请向我推荐支持将语音拆分为单词的库。

谢谢

score 3 · Accepted Answer

如果您知道说话者所说的内容，您可以执行强制对齐以生成单词（或音素）时间对齐。CMU Sphinx、HTK和Kaldi等工具包可以执行此操作。如果不知道说话者说了什么，您可以执行标准语音识别并使用时间信息来获取单词边界，尽管识别输出中可能存在错误。

score 0 · Accepted Answer

没有关于已发音的短语的先验信息，这项任务非常具有挑战性。作为一种方法，您可以尝试将 VAD 应用于语音并通过停顿将声音分成单词。但是在自发讲话的情况下，人们通常不会在某些单词之间进行间隔。所以肯定会有问题。

这里建议使用一些 VAD 库。

2 回答 2