nlp - NLTK NER：持续学习

Question

我一直在尝试使用 NLTK 的 NER 功能。我想从文章中提取这些实体。我知道这样做并不完美，但我想知道在手动标记 NE 之间是否有人为干预，会改善吗？

如果是，是否可以使用 NLTK 中的现有模型来持续训练模型。（半监督培训）

score 1 · Accepted Answer

nltk 中提供的普通 NER 分块器在内部使用了在 ACE 语料库上训练的最大熵分块器。因此，无法识别日期或时间，除非您使用自己的分类器和数据对其进行训练（这是一项非常细致的工作）。

您可以参考此链接以执行相同的操作。

此外，在 nltk_contrib 中有一个名为timex的模块，它可能会帮助您满足您的需求。

如果您有兴趣在 Java 中执行相同的操作，请查看Stanford SUTime，它是 Stanford CoreNLP 的一部分。

1 回答 1