我是 CRF 的新手,我想使用 CRFsuite 来标记单词。我阅读了 CRFsuite 的手册并了解了训练数据的格式,但是如果我想添加一些带有“近词”标签的特征,那么训练数据文件是什么样的?
我有谷歌,但我没有发现这个问题。
我是 CRF 的新手,我想使用 CRFsuite 来标记单词。我阅读了 CRFsuite 的手册并了解了训练数据的格式,但是如果我想添加一些带有“近词”标签的特征,那么训练数据文件是什么样的?
我有谷歌,但我没有发现这个问题。
简短的回答是您提供单词coffee 的属性(例如表示w[-1]=drank
前一个单词)及其标签(NOUN
词是VERB
)。它知道这样做是因为它使用“具有二元特征的一阶马尔可夫 CRF”,如您链接到的手册页中所述。
一个重要的区别(并且文档可能更精确)是“特征”和“属性”之间的区别,其中特征是模型中表示(属性,标签)或(标签,标签)对的链接.
因此,在您的示例中,w[-1]=drank
是您提供的属性。的组合w[-1]=drank, NOUN
是状态特征,标签之间的转换VERB --> NOUN
是转换特征,两者都是由 CRFsuite 生成的。
我推荐教程,它更详细地讨论了这一点。