0

我想用 cmusphinx 为中国 14 岁以下儿童建立一个英语声学模型,词汇量约为 800 个单词。

我做了一些研究,一些商业语音引擎需要数千小时的语音记录来训练他们的声学模型:(nuance 和 google 花了 2000+ 和 1000+ 小时)。

因为我需要达到大约 95% 的准确率,语音语料库需要多少小时?

是不是语音语料越长,准确率就越高?

4

1 回答 1

0

300-400 小时是一个很好的数据量。小于 100 将不起作用。

随着数据量的增加,如果训练数据本身存在系统问题,则不一定会提高准确性,但是,如果您正确分析训练数据中的问题,结果可能会有所改善。

如果您一般学习机器学习,则该课程将涵盖数据准备问题。

于 2013-10-31T10:10:10.840 回答