Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我使用crf++进行中文命名实体识别。train文件中的第一列是token代表当前单词。我看到有人在第一列只使用一个汉字,但有人使用了很多汉字,比如中国。
汉字可以是1个汉字或多个汉字: 中代表一个英文单词-middle. 国代表另一个英文单词-country。 中国代表英文单词-China。 它们是相同的 - 当前单词 - 就像“CHINA”有 5 个英文字符,CH 有 2 个中文字符 - 两者都是 cft++ 中的当前单词。