我一直在尝试使用 NLTK 的 NER 功能。我想从文章中提取这些实体。我知道这样做并不完美,但我想知道在手动标记 NE 之间是否有人为干预,会改善吗?
如果是,是否可以使用 NLTK 中的现有模型来持续训练模型。(半监督培训)
我一直在尝试使用 NLTK 的 NER 功能。我想从文章中提取这些实体。我知道这样做并不完美,但我想知道在手动标记 NE 之间是否有人为干预,会改善吗?
如果是,是否可以使用 NLTK 中的现有模型来持续训练模型。(半监督培训)
nltk 中提供的普通 NER 分块器在内部使用了在 ACE 语料库上训练的最大熵分块器。因此,无法识别日期或时间,除非您使用自己的分类器和数据对其进行训练(这是一项非常细致的工作)。
您可以参考此链接以执行相同的操作。
此外,在 nltk_contrib 中有一个名为timex的模块,它可能会帮助您满足您的需求。
如果您有兴趣在 Java 中执行相同的操作,请查看Stanford SUTime,它是 Stanford CoreNLP 的一部分。