我正在使用 Stanford POS Tagger(第一次),虽然它正确标记了英语,但即使更改模型参数,它似乎也无法识别(简体)中文。我忽略了什么吗?
我已经从这里下载并解压了最新的完整版本:http: //nlp.stanford.edu/software/tagger.shtml
然后我将示例文本输入到“sample-input.txt”中。
这是一个测试的句子。这是另一个句子。</p>
然后我简单地运行
./stanford-postagger.sh models/chinese-distim.tagger sample-input.txt
预期的输出是用词性标记每个单词,但它会将整个文本字符串识别为一个单词:
从标注器 models/chinese-distim.tagger 加载默认属性
从 models/chinese-distim.tagger 中读取 POS 标记器模型 ... 完成 [3.5 秒]。
这是一个测试的句子。这是另一个句子。#NR
以每秒 30.30 个单词的速度标记 1 个单词。
我很感激任何帮助。