我一直在尝试让一个词级语言模型在 lingpipe 上工作。我遇到的所有示例和教程都显示了 character-n-gram 模型。如何使用 lingpipe 训练单词级模型,然后使用该模型在其他文档上进行测试?
此外,我注意到 TokenizedLM 不可序列化。我有没有办法保存它并在以后加载它而不必每次都重新训练?
最后,是否有任何其他框架/工具可以让我在没有任何编码的情况下做到这一点?
我一直在尝试让一个词级语言模型在 lingpipe 上工作。我遇到的所有示例和教程都显示了 character-n-gram 模型。如何使用 lingpipe 训练单词级模型,然后使用该模型在其他文档上进行测试?
此外,我注意到 TokenizedLM 不可序列化。我有没有办法保存它并在以后加载它而不必每次都重新训练?
最后,是否有任何其他框架/工具可以让我在没有任何编码的情况下做到这一点?
我不了解 Java,但如果您不受该编程语言的约束,则可以使用 Python NLTK,它具有标记器和ngram-models以及许多其他东西。还有一本书可以用作介绍和概述。