我在 Brown Corpus 上通过 NLTK 使用 Wordnet Lemmatizer(以确定其中的名词是更多地以单数形式还是复数形式使用)。
IE from nltk.stem.wordnet import WordNetLemmatizer
l = WordnetLemmatizer()
我注意到即使是最简单的查询(例如下面的查询)也需要很长时间(至少一两秒)。
l("cats")
大概这是因为每个查询都必须与 Wordnet 建立网络连接?..
我想知道是否有办法仍然使用 Wordnet Lemmatizer 但它的执行速度要快得多?例如,将 Wordnet 下载到我的机器上对我有帮助吗?或者有什么其他建议?
我试图弄清楚 Wordnet Lemmatizer 是否可以做得更快,而不是尝试不同的 lemmatizer,因为我发现它在 Porter 和 Lancaster 等其他工具中效果最好。