2

对于包含公司名称的文本,我想训练一个自动标记承包商(执行任务的公司)和委托人(雇用承包商的公司)的模型。

一个例句是:

Blossom Inc. 聘请 Big Think 的顾问制定外包战略。

Blossom Inc是负责人,Big Think是承包商。

我的第一个问题:只标记我的训练集中的委托人和承包商是否足够,还是另外使用 POS 标记更好?

换句话说,要么

Blossom/PRINCIPAL Inc./PRINCIPAL 雇佣/NN/NN 顾问/NN Big/CONTRACTOR Think/CONTRACTOR/NN 开发/NN/NN 外包/NN 战略/NN./.

或者

Blossom/PRINCIPAL Inc./PRINCIPAL 聘请/IN Big/CONTRACTOR Think/CONTRACTOR 的/VBZ/DT 顾问/NNS/TO 开发/VB 安/DT 外包/NN 策略/NN./。

第二个问题:一旦我有了我的训练集,nltk-package 的哪些算法最有前途?N-Gram 标记器、Brill 标记器、TnT 标记器、Maxent 分类器、朴素贝叶斯……?还是我在这里完全走错了路?

我是 NLP 的新手,我只是想在投入大量时间标记我的训练集之前征求意见。我的文字是德文的,这可能会增加一些困难......感谢您的任何建议!

4

3 回答 3

2

我建议您不要合并命名实体和 POS 信息。大多数工作表明,POS(或其他一些形态和/或大写特征)对于检测命名实体很有价值。由于您可以非常安全地使用自动 POS 标记器(除非您处理嘈杂的文本),因此您最终可能会得到以下结果:

Blossom/NNP/PRINCIPAL Inc./NNP/PRINCIPAL hires/VBZ/O the/DT/O consultants/NNS/O of/IN/O Big/NNP/CONTRACTOR Think/NNP/CONTRACTOR to/TO/O develop/VB/O an/DT/O outsourcing/NN/O strategy/NN/O ./.

其中 POS 级别将被自动标记,而您可以手动注释 PRINCIPAL 和 CONTRACTOR。另请注意,大多数人使用BIO 格式来标记命名实体。

请记住,识别组织通常非常困难——至少比人员和位置更难。除非您有预定义的组织列表,否则需要大量词典。Intuitivelly,我想你可以将你的任务划分为:

  1. 识别和过滤组织 (ORG),例如使用 NER 标记器
  2. 注入额外的处理(模式/语法/语义)
  3. 实施第二个模型,在 PRINCIPAL 或 CONTRACTOR 中转换相关 ORG
于 2014-01-08T22:05:31.410 回答
1
  1. 您不需要手动 POS 标签。POS标记器将为您完成。
  2. 有关 POS 标记德语的信息,请参阅此问题
于 2014-01-07T12:11:05.790 回答
0

命名实体识别(斯坦福)足以解决您的问题。

使用 POS 标记不会帮助您解决问题。

用于生成 NER 模型的足够数量的训练数据会给您带来良好的结果。

如果您使用斯坦福 NER,那么它使用 CRF 分类器和算法。

于 2015-11-20T09:04:07.247 回答