0

我正在尝试构建一个中文分词器作为本文。如果我理解正确,他们会使用带有 CRF++ 的 2-tag 分割方法。我的问题是,如何将该论文中的标签转换(例如T(-1)C(0)T(0))作为CRF ++中的特征模板?例如,对于这样的训练数据:

共乙

同美

创 B

造M

美 B <- 当前单词

好男

的乙

新乙

世乙

纪 M

CRF++中是否有可能有特征T(-1)C(0)T(0) -> M/美/B?我尝试添加功能模板,例如 U01:%x[-1,1]/%x[0,0]/%x[0,1] 但失败了。我也很困惑,既然 B/I 标记是我们要在测试数据中标记的标记(例如原始中文句子),为什么可以将标记用作论文中的特征?还是我误解了什么?

4

1 回答 1

0

CRF++中的T(-1)C(0)T(0) -> M/美/B等特征可以表示为:

B01:%x[0,0]

注意区别。B,不是 U

如果你使用 U01:%x[0,0],它表示像“美/B”这样的特征。

当我 6 年前第一次使用 CRF++ 时,这也让我有些困惑。希望这可以帮到你。


我应该提一下,在 CRF 中,对功能的描述将包括标签。我的意思是,以下是 0-1 特征: 当前字符是“美”,当前标签是“B”

CRF++(这是一个实现CRF的工具)中的“模板”所做的是枚举给定模板中定义的上下文的所有标签。

因此,在您的示例中, U01:%x[0,0] 自动引入了 2 个功能:“U01:美_y=B”和“U01:美_y=M”

于 2016-04-12T18:48:14.753 回答