Sphinx4 要求声学模型中的音频每次分段 5-30 秒。为什么?以及如何分割音频?你什么时候会在 5 秒或 10 秒或 25 秒时对其进行分段?谢谢亲爱的先生!
问问题
65 次
2 回答
1
Sphinxtrain 为训练执行文本与音频的对齐。它尝试将音素与各个音频片段进行匹配。当音频很长时,很难得到一个好的匹配,因为有太多的变体和错误的可能性,因此最好保持推荐的话语长度。
当您对需要在静音区域分割的音频进行分段时,话语长度多少并不重要,更重要的是在开头和结尾都有小的静音区域。小的沉默区域帮助培训师找到上下文。
于 2015-09-03T06:29:27.030 回答
0
根据经验,段越长越好。要分割音频,您可能需要查看sox。它有一个修剪命令,可以方便地进行分割。
于 2015-09-02T23:39:45.897 回答