1

如何将朴素贝叶斯预测的句子类别表示为 CRF++ 或 Wapiti 中的特征?

例如,如果句子 ,Tumblr merges with Yahoo.被归类为Business,那么在编写 crf 的训练文件时,我在哪里可以将标签指示Business为特征?那么模板应该如何建模呢?

火车文件应该是这样的

Tumblr    business    ORG
merges    business    O
with     business    O
Yahoo    business    ORG

ORG还是只包含带有标签的类别?怎么会这样?和模板文件?

4

2 回答 2

2

方法 1:您可以business使用与显示相同的方式添加为功能,或者您可以简单地编写1而不是business. 同样,对于类别,sports您可以添加另一列,该列中的值应1为属于运动句子的单词。您还必须分别在模板文件中添加每一列。

U42:%x[0,1] #for business
U43:%x[0,2] #for sports

方法 2:在 ORG 中包含类别可能不是一个好主意,因为相同的 ORG 可能出现在不同的类别中。

于 2017-06-07T15:38:50.163 回答
0

据我所知,您的训练文件是包含句子级别注释的唯一方法,除非您考虑调整/实施考虑到句子级别特征的 CRF。

如果你有足够的训练数据和有限数量的类别,这种方法可能会影响句子类别的低权重:它只会在命名实体不明确以及计算的 NE 类别概率以某种方式接近时用于区分命名实体。

最好的方法确实是在有/没有这个功能的情况下进行训练,看看它是否能提高 NER!应该是一个有趣的实验:)

于 2017-06-08T09:18:28.877 回答