我正在使用 Spacy,它是一个 Python 自然语言处理库,将原始文本解析为这种更复杂的面向对象格式,更具体地说是依赖树。
上述操作执行需要一段时间:我需要加载一个非常昂贵的模型,然后解析非常大量的文本。我希望在后续执行中节省一些时间,以便在完成初始解析后更快地迭代处理数据。
如何在第一次运行后“保存”这些结果,然后在后续运行中更快地重新加载这些预处理版本?
PICKLE:尝试使用 pickle 时,我在反序列化 Docs/Tokens 类时收到以下错误:
File "spacy/tokens/token.pyx", line 56, in spacy.tokens.token.Token.__cinit__ (spacy/tokens/token.cpp:3868)
TypeError: __cinit__() takes exactly 3 positional arguments (0 given)
谢谢。