我想知道我需要处理多少文档或句子或单词才能获得一个好的领域语言模型并将其用于语音识别工具,如 CMU Sphinx。
问问题
646 次
2 回答
2
要为一个小领域创建一个体面的语言模型,通常拥有大约 100 mb 的文本就足够了。您可以将它们与通用语言模型混合使用,以更好地概括语言模型。
要创建通用语言模型,开发人员使用非常大的语料库。例如,有一个 1TB 的 Google 语料库,其中包含数百万个单词和 TB 级数据。它的 trigram 部分大约是 40Gb 的 bigram 计数,但它必须是 100 TB 的文本。
于 2011-09-14T10:00:42.130 回答
0
添加到尼古拉的回答:
这不是一项微不足道的任务。生成语言模型是一项耗费时间和资源的任务。
如果你想拥有一个“好的”语言模型,你将需要一个大的或非常大的文本语料库来训练一个语言模型(想想华尔街期刊文本的数量级)。
“好”意味着:如果语言模型能够从训练数据泛化到新的和以前看不见的输入数据
您应该查看 Sphinx 和 HTK 语言模型工具包的文档。
请检查这两个线程:
您可以采用更通用的语言模型,基于更大的语料库并用它插入您的较小语言模型......例如退避语言模型......但这不是一项简单的任务。
见:http ://en.wikipedia.org/wiki/Katz 's_back-off_model
于 2011-10-05T02:04:58.013 回答