对于包含公司名称的文本,我想训练一个自动标记承包商(执行任务的公司)和委托人(雇用承包商的公司)的模型。
一个例句是:
Blossom Inc. 聘请 Big Think 的顾问制定外包战略。
Blossom Inc是负责人,Big Think是承包商。
我的第一个问题:只标记我的训练集中的委托人和承包商是否足够,还是另外使用 POS 标记更好?
换句话说,要么
Blossom/PRINCIPAL Inc./PRINCIPAL 雇佣/NN/NN 顾问/NN Big/CONTRACTOR Think/CONTRACTOR/NN 开发/NN/NN 外包/NN 战略/NN./.
或者
Blossom/PRINCIPAL Inc./PRINCIPAL 聘请/IN Big/CONTRACTOR Think/CONTRACTOR 的/VBZ/DT 顾问/NNS/TO 开发/VB 安/DT 外包/NN 策略/NN./。
第二个问题:一旦我有了我的训练集,nltk-package 的哪些算法最有前途?N-Gram 标记器、Brill 标记器、TnT 标记器、Maxent 分类器、朴素贝叶斯……?还是我在这里完全走错了路?
我是 NLP 的新手,我只是想在投入大量时间标记我的训练集之前征求意见。我的文字是德文的,这可能会增加一些困难......感谢您的任何建议!