0

我使用crf++进行中文命名实体识别。train文件中的第一列是token代表当前单词。我看到有人在第一列只使用一个汉字,但有人使用了很多汉字,比如中国。

4

1 回答 1

0

汉字可以是1个汉字或多个汉字:
中代表一个英文单词-middle.
国代表另一个英文单词-country。
中国代表英文单词-China。
它们是相同的 - 当前单词 - 就像“CHINA”有 5 个英文字符,CH 有 2 个中文字符 - 两者都是 cft++ 中的当前单词。

于 2015-11-16T05:06:02.680 回答