5

我正在使用 Stanford POS Tagger(第一次),虽然它正确标记了英语,但即使更改模型参数,它似乎也无法识别(简体)中文。我忽略了什么吗?

我已经从这里下载并解压了最新的完整版本:http: //nlp.stanford.edu/software/tagger.shtml

然后我将示例文本输入到“sample-input.txt”中。

这是一个测试的句子。这是另一个句子。</p>

然后我简单地运行

./stanford-postagger.sh models/chinese-distim.tagger sample-input.txt

预期的输出是用词性标记每个单词,但它会将整个文本字符串识别为一个单词:

从标注器 models/chinese-distim.tagger 加载默认属性

从 models/chinese-distim.tagger 中读取 POS 标记器模型 ... 完成 [3.5 秒]。

这是一个测试的句子。这是另一个句子。#NR

以每秒 30.30 个单词的速度标记 1 个单词。

我很感激任何帮助。

4

1 回答 1

6

我终于意识到这个 pos 标记器中不包含标记化/分段。在将它们提供给标记器之前,这些单词似乎必须用空格分隔。对于那些对中文最大熵分词感兴趣的人,这里有一个单独的包可用:

http://nlp.stanford.edu/software/segmenter.shtml

感谢大家。

于 2013-04-18T21:14:31.310 回答