google stt 等检测填充声音，如 um、uh 等？

翻译自：https://stackoverflow.com/questions/62830798 2020-07-10T09:00:37.217

388 次

我正在做一个语音识别项目，任务是检测说英语的儿童/学生的音频剪辑中的填充声音，如嗯、嗯、嗯等。他们的英语口语不是很好。

如何使用 cmuSphinx/Mozilla 深度语音/谷歌云语音/Kaldi 来做到这一点？还是我需要从头开始？

我还尝试阅读有关如何构建 ASR 的其他帖子和论文，但由于它不是一个长期项目，我没有时间花在从头开始构建它并查看结果。此外，我可以接受较低的准确性，我可以声称以后会改进。

0 回答 0