我正在尝试构建一个中文分词器作为本文。如果我理解正确,他们会使用带有 CRF++ 的 2-tag 分割方法。我的问题是,如何将该论文中的标签转换(例如T(-1)C(0)T(0))作为CRF ++中的特征模板?例如,对于这样的训练数据:
共乙
同美
创 B
造M
美 B <- 当前单词
好男
的乙
新乙
世乙
纪 M
CRF++中是否有可能有特征T(-1)C(0)T(0) -> M/美/B?我尝试添加功能模板,例如 U01:%x[-1,1]/%x[0,0]/%x[0,1] 但失败了。我也很困惑,既然 B/I 标记是我们要在测试数据中标记的标记(例如原始中文句子),为什么可以将标记用作论文中的特征?还是我误解了什么?