1

我正在使用 spacy 预处理数据以进行情感分析。

我想做的是:

1) 词形还原
2) 词形词的词性标注

但是由于 spacy 在调用解析器时会立即执行所有过程,因此它会执行所有计算两次。是否有禁用非必需计算的选项?

4

1 回答 1

3

看看语言。call方法以查看各种进程是如何按顺序应用的。没有很多——基本上是:

doc = nlp.tokenizer(text)
nlp.tagger(doc)
nlp.parser(doc)
nlp.entity(doc)

如果您需要不同的序列,您应该编写自己的函数以不同的方式将它们串在一起。

不过,我不确定您的要求是否有意义。如果您将 POS 标记器应用于词形还原的文本,则统计模型可能不会表现得很好。变形后缀是重要的​​特征。

于 2016-10-14T21:46:53.133 回答