speech-recognition - 为什么您需要将每个音频分段 5-30 秒来构建声学模型？

Question

Sphinx4 要求声学模型中的音频每次分段 5-30 秒。为什么？以及如何分割音频？你什么时候会在 5 秒或 10 秒或 25 秒时对其进行分段？谢谢亲爱的先生！

score 1 · Accepted Answer

Sphinxtrain 为训练执行文本与音频的对齐。它尝试将音素与各个音频片段进行匹配。当音频很长时，很难得到一个好的匹配，因为有太多的变体和错误的可能性，因此最好保持推荐的话语长度。

当您对需要在静音区域分割的音频进行分段时，话语长度多少并不重要，更重要的是在开头和结尾都有小的静音区域。小的沉默区域帮助培训师找到上下文。

score 0 · Accepted Answer

根据经验，段越长越好。要分割音频，您可能需要查看sox。它有一个修剪命令，可以方便地进行分割。

2 回答 2