我正在做一个语音识别项目,任务是检测说英语的儿童/学生的音频剪辑中的填充声音,如嗯、嗯、嗯等。他们的英语口语不是很好。
如何使用 cmuSphinx/Mozilla 深度语音/谷歌云语音/Kaldi 来做到这一点?还是我需要从头开始?
我还尝试阅读有关如何构建 ASR 的其他帖子和论文,但由于它不是一个长期项目,我没有时间花在从头开始构建它并查看结果。此外,我可以接受较低的准确性,我可以声称以后会改进。
我正在做一个语音识别项目,任务是检测说英语的儿童/学生的音频剪辑中的填充声音,如嗯、嗯、嗯等。他们的英语口语不是很好。
如何使用 cmuSphinx/Mozilla 深度语音/谷歌云语音/Kaldi 来做到这一点?还是我需要从头开始?
我还尝试阅读有关如何构建 ASR 的其他帖子和论文,但由于它不是一个长期项目,我没有时间花在从头开始构建它并查看结果。此外,我可以接受较低的准确性,我可以声称以后会改进。