java - 使用 Lingpipe 进行词级语言模型

Question

我一直在尝试让一个词级语言模型在 lingpipe 上工作。我遇到的所有示例和教程都显示了 character-n-gram 模型。如何使用 lingpipe 训练单词级模型，然后使用该模型在其他文档上进行测试？

此外，我注意到 TokenizedLM 不可序列化。我有没有办法保存它并在以后加载它而不必每次都重新训练？

最后，是否有任何其他框架/工具可以让我在没有任何编码的情况下做到这一点？

score 0 · Accepted Answer

我不了解 Java，但如果您不受该编程语言的约束，则可以使用 Python NLTK，它具有标记器和ngram-models以及许多其他东西。还有一本书可以用作介绍和概述。

1 回答 1