3

我是 CRF 的新手,我想使用 CRFsuite 来标记单词。我阅读了 CRFsuite 的手册并了解了训练数据的格式,但是如果我想添加一些带有“近词”标签的特征,那么训练数据文件是什么样的?

我有谷歌,但我没有发现这个问题。

4

1 回答 1

2

简短的回答是您提供单词coffee 的属性(例如表示w[-1]=drank前一个单词)及其标签(NOUN词是VERB)。它知道这样做是因为它使用“具有二元特征的一阶马尔可夫 CRF”,如您链接到的手册页中所述。

一个重要的区别(并且文档可能更精确)是“特征”和“属性”之间的区别,其中特征是模型中表示(属性,标签)或(标签,标签)对的链接.

因此,在您的示例中,w[-1]=drank是您提供的属性。的组合w[-1]=drank, NOUN是状态特征,标签之间的转换VERB --> NOUN是转换特征,两者都是由 CRFsuite 生成的。

我推荐教程,它更详细地讨论了这一点。

于 2014-03-27T14:43:32.323 回答