CRF++ 模板文件中词袋功能的语法是什么?
模板示例:
#Unigrams
U00:%x[0,0]
U01:%x[0,1]
U02:%x[1,0]
#Bigrams
B
我认为是这样的:
#Unigrams
U00:%x[0,0]
U00:%x[0,1]
U00:%x[1,0]
#Bigrams
B
使用相同的标识符。
这是使用 Bag of (3) Words 的正确模板:
#Unigrams
U00:%x[-1,0]
U00:%x[0,0]
U00:%x[1,0]
#Bigrams
B
请注意,标识符是相同的 (U00)。
[-1,0] -> previous word
[0,0] -> current word
[1,0] -> next word