java - 斯坦福 POS 标注器在 Java 中的使用

Question

Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)

这些是我想将 POS 标签分配给句子时遇到的错误。我从文件中读取句子。最初（对于几句话）我没有收到此错误（即无法标记），但在阅读了一些句子后会出现此错误。我使用 POS 标记器的 v2.0（即 2009），模型是left3words.

score 8 · Accepted Answer

我同意 Yuval - 一个字符编码问题，但最常见的情况实际上是当文件采用单字节编码（例如 ISO-8859-1）时，而标记器正试图以 UTF-8 读取它。请参阅Wikipedia上对 U+FFFD 的讨论。

score 2 · Accepted Answer

这对我来说似乎是一个编码问题。你能把冒犯的句子贴出来吗？我在文档中找不到这个，但我会尝试检查文件是否采用 UTF-8 编码。

score 1 · Accepted Answer

我也遇到了这个问题。测试一个字符是否可标记的一种方法是检查它是否失败Character.isIdentifierIgnorable()。一个不可标记的字符将返回true，而所有可标记的字符都将返回false。

score 0 · Accepted Answer

如果您正在阅读 DOC、可移植文档格式 (PDF) 的内容，请使用Apache Tika。它将提取您的内容。它可能会帮助你。

阿帕奇蒂卡

关于蒂卡

Apache Tika 是一个工具包，用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。它是用 Java 编写的，但包括一个用于其他语言的命令行版本。

有关 Tika、错误跟踪器、邮件列表、下载等的更多信息，请访问http://tika.apache.org/

java - 斯坦福 POS 标注器在 Java 中的使用

4 回答 4

Related

Reference