python - 命名实体识别：如何标记训练集并选择算法？

Question

对于包含公司名称的文本，我想训练一个自动标记承包商（执行任务的公司）和委托人（雇用承包商的公司）的模型。

一个例句是：

Blossom Inc. 聘请 Big Think 的顾问制定外包战略。

Blossom Inc是负责人，Big Think是承包商。

我的第一个问题：只标记我的训练集中的委托人和承包商是否足够，还是另外使用 POS 标记更好？

换句话说，要么

Blossom/PRINCIPAL Inc./PRINCIPAL 雇佣/NN/NN 顾问/NN Big/CONTRACTOR Think/CONTRACTOR/NN 开发/NN/NN 外包/NN 战略/NN./.

或者

Blossom/PRINCIPAL Inc./PRINCIPAL 聘请/IN Big/CONTRACTOR Think/CONTRACTOR 的/VBZ/DT 顾问/NNS/TO 开发/VB 安/DT 外包/NN 策略/NN./。

第二个问题：一旦我有了我的训练集，nltk-package 的哪些算法最有前途？N-Gram 标记器、Brill 标记器、TnT 标记器、Maxent 分类器、朴素贝叶斯……？还是我在这里完全走错了路？

我是 NLP 的新手，我只是想在投入大量时间标记我的训练集之前征求意见。我的文字是德文的，这可能会增加一些困难......感谢您的任何建议！

score 2 · Accepted Answer

我建议您不要合并命名实体和 POS 信息。大多数工作表明，POS（或其他一些形态和/或大写特征）对于检测命名实体很有价值。由于您可以非常安全地使用自动 POS 标记器（除非您处理嘈杂的文本），因此您最终可能会得到以下结果：

Blossom/NNP/PRINCIPAL Inc./NNP/PRINCIPAL hires/VBZ/O the/DT/O consultants/NNS/O of/IN/O Big/NNP/CONTRACTOR Think/NNP/CONTRACTOR to/TO/O develop/VB/O an/DT/O outsourcing/NN/O strategy/NN/O ./.

其中 POS 级别将被自动标记，而您可以手动注释 PRINCIPAL 和 CONTRACTOR。另请注意，大多数人使用BIO 格式来标记命名实体。

请记住，识别组织通常非常困难——至少比人员和位置更难。除非您有预定义的组织列表，否则需要大量词典。Intuitivelly，我想你可以将你的任务划分为：

识别和过滤组织 (ORG)，例如使用 NER 标记器
注入额外的处理（模式/语法/语义）
实施第二个模型，在 PRINCIPAL 或 CONTRACTOR 中转换相关 ORG

score 1 · Accepted Answer

您不需要手动 POS 标签。POS标记器将为您完成。
有关 POS 标记德语的信息，请参阅此问题。

score 0 · Accepted Answer

命名实体识别（斯坦福）足以解决您的问题。

使用 POS 标记不会帮助您解决问题。

用于生成 NER 模型的足够数量的训练数据会给您带来良好的结果。

如果您使用斯坦福 NER，那么它使用 CRF 分类器和算法。

python - 命名实体识别：如何标记训练集并选择算法？

3 回答 3

Related

Reference