nlp - 如何在 crfpp 中正确建模特征

翻译自：https://stackoverflow.com/questions/28449234 2015-02-11T07:58:04.650

447 次

好的，下面是模板文件，如果我将每个特征都视为第一个特征（单词），一切正常，但是当我尝试只处理当前单词的形状特征时，模型会尽力标记每件事都是PER...

我在crfpp模板上找不到任何详细的描述，但我想我可能弄错了。

对于大写功能，如果我只想对当前单词的信息进行建模而忽略前一个或下一个单词的大写信息，是否可以？

# Unigram
# word
U00:%x[-2,0]  
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-1,0]/%x[0,0]
U06:%x[0,0]/%x[1,0]
U07:%x[-2,0]/%x[-1,0]/%x[0,0]/%x[1,0]/%x[0,0]

# is capitalized
U08:%x[0,1]  # if current word is capitalized

# is all uppercased
U09:%x[0,2]

# is alphanumeric
U10:%x[0,3]

# lowercased prefix
U11:%x[0,4]

# lowercased suffix
U12:%x[0,5]


# add for entity like  iphone 6
U15:%x[0,6] # word type
U16:%x[0,6]/%x[-1,1]
# to seperate different language types
U17:%x[0,6]/%x[1,6]
U18:%x[-1,6]/%x[0,6]

# words eclosed by bracket is likely to be an entity
U19:%x[0,7]
U20:%x[-1,7]
U21:%x[1,7]
U22:%x[0,7]/%x[1,7]
U23:%x[-1,7]/%x[0,7]

nlp - 如何在 crfpp 中正确建模特征

0 回答 0

Related

Reference