8

我想为 CMU Sphinx 建立一个语言模型,但是我的语料库有 1000 多个单词,所以我无法使用在线工具。如何使用(cmuclmtk 中的脚本?)来构建我的语言模型?

4

2 回答 2

6

请阅读教程

http://cmusphinx.sourceforge.net/wiki/tutoriallm

于 2011-01-24T19:20:14.053 回答
1

不是一项微不足道的任务。生成语言模型是一项耗费时间和资源的任务。

如果你想拥有一个“好”的语言模型,你将需要一个大的或非常大的文本语料库来训练一个语言模型(想想华尔街期刊文本的数量级)。

“好”意味着:如果语言模型能够从训练数据泛化到新的和以前看不见的输入数据

您应该查看 Sphinx 和 HTK 语言模型工具包的文档。

http://cmusphinx.sourceforge.net/wiki/tutoriallm

还要检查这两个线程:

构建 openears 兼容的语言模型

Ruby 文本分析

您可以采用更通用的语言模型,基于更大的语料库并用它插入您的较小语言模型......例如退避语言模型......但这不是一项简单的任务。

参见:Katz 的退避模型

于 2011-10-05T02:01:13.157 回答