他们通常如何存储和更新语言模型(例如 N-gram 模型)?将这些模型存储在数据库中的最有效方式是哪种结构?
user3017348
问问题
1169 次
2 回答
4
语言模型中最常见的数据结构是尝试和哈希表。您可以查看Kenneth Heafield关于他自己的语言模型工具包KenLM的论文,以获取有关他自己的软件和相关软件包使用的数据结构的更多详细信息。
于 2015-04-28T10:19:42.747 回答
1
对于语音识别和其他一些应用,通常将 n-gram 模型表示为有限状态传感器。我不知道 FST 是最有效的存储结构,但是有非常简单(并且在数学上很干净)的方法可以将它们与语音识别模型的其他部分结合起来。
参见OpenFST库和OpenGRM工具(建立在 OpenFST 之上),用于语言模型构建、修剪、评估等。Mohri 等人,2002是一个很好的介绍,以及从 OpenFST 和 OpenGRM 站点链接的其他论文.
于 2015-04-29T16:08:32.820 回答