18

在哪里可以找到有关 ARPA 语言模型格式的文档?

我正在开发带有袖珍狮身人面像 STT 引擎的简单语音识别应用程序。出于性能原因,建议使用 ARPA。我想了解我可以做多少调整我的语言模型以满足我的自定义需求。

我发现的只是一些非常简短的 ARPA 格式描述:

我是 STT 的初学者,我很难理解这个(n-gram 等)。我正在寻找更详细的文档。类似于 JSGF 语法的文档在这里:

http://www.w3.org/TR/jsgf/

4

3 回答 3

4

实际上,关于格式并没有比那些文档中所说的更多。

此外,您可能需要准备一个带有例句的文本文件,并根据它生成语言文件。有一个在线版本可以为您完成:lmtool

于 2013-05-07T06:27:42.287 回答
2

您可以使用这份技术报告补充这些文档,该报告全面概述了语言建模的平滑:http ://www.ee.columbia.edu/~stanchen/papers/h015a-techreport.pdf 您还可以找到退避模型的定义和插值模型。

于 2013-11-13T10:44:33.153 回答
2

我可能很晚才回答这个问题,我发现 ARPA LM 格式在Steve YoungThe HTK Book的这个链接中有很好的记录。人。

ARPA 的每一行都是一个三元组,它存储:

n-gram log-probability(base10) ; the n-gram itself ; back-off weight (also in log space). 
于 2019-12-18T07:04:34.920 回答