我正在使用 nltk.ngram.NgramModel 在布朗语料库上训练一个 n-gram 模型。它基本上需要永远并使用大量系统内存。我想知道是否有一种方法可以保存模型,以便每次运行代码时都不必再次训练它。我看过对 pickle 和 BerkeleyDB 的引用,但我并不完全理解它们中的任何一个是如何工作的。
谢谢!
***ETA:尽管实施了此处描述的更改并尝试了所有各种泡菜协议选项,但我无法成功泡菜模型。我玩弄了 simplejson(没有运气)和 YAML(需要永远,吃掉我所有的记忆)。