1

我看到了几篇关于为其他语言训练斯坦福 NER 的帖子。

例如:https ://blog.sicara.com/train-ner-model-with-nltk-stanford-tagger-english-french-german-6d90573a9486

然而,Stanford CRF-Classifier 使用了一些语言相关的特征(例如:词性标签)。

我们真的可以使用同一个 Jar 文件来训练非英语模型吗? https://nlp.stanford.edu/software/crf-faq.html

4

2 回答 2

1

我同意之前的评论,即 NER 分类模型与语言无关。

如果您对训练数据有疑问,我可以建议您使用此链接,其中包含针对不同语言的大量标记数据集。

如果您想尝试其他模型,我建议您使用 ESTNLTK - 爱沙尼亚语库,但它可以适合与语言无关的 ner 模型(文档)。此外,在这里您可以找到如何使用 spaCy 训练 ner 模型的示例。

我希望它有所帮助。祝你好运!

于 2019-03-28T13:33:40.040 回答
1

训练 NER 分类器与语言无关。您必须提供高质量的训练数据并创建有意义的特征。关键是,并非所有功能对每种语言都同样有用。例如,大写字母是英语命名实体的一个很好的指标。但是在德语中,所有名词都是大写的,这使得这个功能不太有用。

在斯坦福 NER 中,您可以决定分类器必须使用哪些功能,因此您可以禁用 POS 标签(事实上,它们默认情况下是禁用的)。当然,您也可以使用您想要的语言提供您自己的 POS 标签。

我希望我能澄清一些事情。

于 2018-10-10T12:55:13.410 回答