machine-learning - CRF++/Wapiti 包含整个句子的类别作为特征

Question

如何将朴素贝叶斯预测的句子类别表示为 CRF++ 或 Wapiti 中的特征？

例如，如果句子 ,Tumblr merges with Yahoo.被归类为Business，那么在编写 crf 的训练文件时，我在哪里可以将标签指示Business为特征？那么模板应该如何建模呢？

火车文件应该是这样的

Tumblr    business    ORG
merges    business    O
with     business    O
Yahoo    business    ORG

ORG还是只包含带有标签的类别？怎么会这样？和模板文件？

score 2 · Accepted Answer

方法 1：您可以business使用与显示相同的方式添加为功能，或者您可以简单地编写1而不是business. 同样，对于类别，sports您可以添加另一列，该列中的值应1为属于运动句子的单词。您还必须分别在模板文件中添加每一列。

U42:%x[0,1] #for business
U43:%x[0,2] #for sports

方法 2：在 ORG 中包含类别可能不是一个好主意，因为相同的 ORG 可能出现在不同的类别中。

score 0 · Accepted Answer

据我所知，您的训练文件是包含句子级别注释的唯一方法，除非您考虑调整/实施考虑到句子级别特征的 CRF。

如果你有足够的训练数据和有限数量的类别，这种方法可能会影响句子类别的低权重：它只会在命名实体不明确以及计算的 NE 类别概率以某种方式接近时用于区分命名实体。

最好的方法确实是在有/没有这个功能的情况下进行训练，看看它是否能提高 NER！应该是一个有趣的实验:)

2 回答 2