nlp - 如何在 CRF++ 中使用目标标签作为特征？

Question

我正在尝试构建一个中文分词器作为本文。如果我理解正确，他们会使用带有 CRF++ 的 2-tag 分割方法。我的问题是，如何将该论文中的标签转换（例如T（-1）C（0）T（0））作为CRF ++中的特征模板？例如，对于这样的训练数据：

共乙

同美

创 B

造M

美 B <- 当前单词

好男

的乙

新乙

世乙

纪 M

CRF++中是否有可能有特征T(-1)C(0)T(0) -> M/美/B？我尝试添加功能模板，例如 U01:%x[-1,1]/%x[0,0]/%x[0,1] 但失败了。我也很困惑，既然 B/I 标记是我们要在测试数据中标记的标记（例如原始中文句子），为什么可以将标记用作论文中的特征？还是我误解了什么？

score 0 · Accepted Answer

CRF++中的T(-1)C(0)T(0) -> M/美/B等特征可以表示为：

B01:%x[0,0]

注意区别。B，不是 U

如果你使用 U01:%x[0,0]，它表示像“美/B”这样的特征。

当我 6 年前第一次使用 CRF++ 时，这也让我有些困惑。希望这可以帮到你。

我应该提一下，在 CRF 中，对功能的描述将包括标签。我的意思是，以下是 0-1 特征： 当前字符是“美”，当前标签是“B”

CRF++（这是一个实现CRF的工具）中的“模板”所做的是枚举给定模板中定义的上下文的所有标签。

因此，在您的示例中， U01:%x[0,0] 自动引入了 2 个功能：“U01:美_y=B”和“U01:美_y=M”

nlp - 如何在 CRF++ 中使用目标标签作为特征？

1 回答 1

Related

Reference