linux - 斯坦福 POS Tagger 不标记中文文本

Question

我正在使用 Stanford POS Tagger（第一次），虽然它正确标记了英语，但即使更改模型参数，它似乎也无法识别（简体）中文。我忽略了什么吗？

我已经从这里下载并解压了最新的完整版本：http: //nlp.stanford.edu/software/tagger.shtml

然后我将示例文本输入到“sample-input.txt”中。

这是一个测试的句子。这是另一个句子。</p>

然后我简单地运行

./stanford-postagger.sh models/chinese-distim.tagger sample-input.txt

预期的输出是用词性标记每个单词，但它会将整个文本字符串识别为一个单词：

从标注器 models/chinese-distim.tagger 加载默认属性

从 models/chinese-distim.tagger 中读取 POS 标记器模型 ... 完成 [3.5 秒]。

这是一个测试的句子。这是另一个句子。#NR

以每秒 30.30 个单词的速度标记 1 个单词。

我很感激任何帮助。

score 6 · Accepted Answer

我终于意识到这个 pos 标记器中不包含标记化/分段。在将它们提供给标记器之前，这些单词似乎必须用空格分隔。对于那些对中文最大熵分词感兴趣的人，这里有一个单独的包可用：

http://nlp.stanford.edu/software/segmenter.shtml

感谢大家。

linux - 斯坦福 POS Tagger 不标记中文文本

1 回答 1

Related

Reference