stanford-nlp - 斯坦福 POS 标记器中的标记化是如何完成的？

Question

我将使用斯坦福 POS 标记器来标记句子。我想将文档拆分为句子，然后将句子拆分为标记。当我第一次使用 java 时，我只想从命令行运行标记器。

当我运行标记器时，它会给出输出，但会给出“不可标记化”的警告。这个警告是什么意思？标记不是由标记器隐式完成的吗？

我已尝试运行将文本拆分为您指定的句子的命令，但它不起作用。标记器给出无法打开路径的错误。

我也想知道如何输入文本文件的数量并在相应的文件中获取它们的输出，这样所有的输出都不会混乱。

score 4 · Accepted Answer

是的，Stanford POS 标记器包含一个高质量的确定性标记器，除非您说文本已经标记化，否则将使用该标记器。对于正式的英文文本，它优于大多数其他标记器，尽管它并不完全适合短信、推文等。

不可标记的警告意味着输入中有无法处理的字节/字符序列。

通常这实际上意味着：标记器的默认字符编码是 utf-8 (Unicode)，但您的文档是其他一些编码，例如 iso-8859-1 或 Windows cp1252 等 8 位编码。您可以转换文档或使用 -encoding 标志指定输入文档编码。

但这也可能意味着输入中有一个它不知道的稀有字符。通常在这些情况下，如果只是偶尔出现的字符，您可以忽略这些消息。您可以选择是否删除字符或将其转换为 1 个字符标记。

目前还没有一种工具可以用一个命令在一堆文件上运行它。您要么需要在每个文件上单独运行它，要么为此编写自己的代码。

1 回答 1