0

我一直在尝试使用 NLTK 的 NER 功能。我想从文章中提取这些实体。我知道这样做并不完美,但我想知道在手动标记 NE 之间是否有人为干预,会改善吗?

如果是,是否可以使用 NLTK 中的现有模型来持续训练模型。(半监督培训)

4

1 回答 1

1

nltk 中提供的普通 NER 分块器在内部使用了在 ACE 语料库上训练的最大熵分块器。因此,无法识别日期或时间,除非您使用自己的分类器和数据对其进行训练(这是一项非常细致的工作)。

您可以参考此链接以执行相同的操作。

此外,在 nltk_contrib 中有一个名为timex的模块,它可能会帮助您满足您的需求。

如果您有兴趣在 Java 中执行相同的操作,请查看Stanford SUTime,它是 Stanford CoreNLP 的一部分。

于 2015-02-10T17:18:54.840 回答