java - Java NLP：在标记文本时提取索引

Question

在对文本字符串进行标记时，我需要提取标记词的索引。例如，给定：

"Mary didn't kiss John"

我需要类似的东西：

[(Mary, 0), (did, 5), (n't, 8), (kiss, 12), (John, 17)]

其中 0、5、8、12 和 17 对应于令牌开始的索引（在原始字符串中）。我不能只依赖空格，因为有些单词会变成 2 个标记。此外，我不能只在字符串中搜索标记，因为这个词可能会出现多次。

一个巨大的障碍是我正在使用“脏”文本。这是语料库中的一个真实示例及其标记化：

细绳：

The child some how builds a boaty  c capable of getting scrtoacross the sea, even after findingovercoming many treachrous rous obsittalcles.

代币：

The, child, some, how, builds, a, boaty, , , c, , capable, of, getting, scrto, , across, the, sea, ,, even, after, finding, , , , , overcoming, many, treachrous, rous, obsittalcles, .

我目前正在使用 OpenNLP 对文本进行标记，但对于使用哪个 API 进行标记化感到矛盾。不过，它确实需要是 Java，所以（不幸的是）Python 的 NLTK 不在图片中。

任何想法将不胜感激！谢谢！

score 1 · Accepted Answer

您可以将 OpenNLP Tokenizer 与UIMA一起使用。UIMA 中的令牌注释器将为令牌创建一个类型，其中将包括令牌的开始和结束索引。您还可以将词性标签、词干、引理等功能附加到令牌。UIMA 具有 Java 和 C++ API。

score 1 · Accepted Answer

OpenNLP 将使用方法返回偏移量Tokenizer.tokenizePos(String s)，请参阅用于 TokenizerME 的 OpenNLP API作为已实现标记器的示例。每个Span返回的都包含令牌的开始和结束位置。

您是否决定使用 UIMA 确实是一个单独的问题，但 OpenNLP 确实为使用tokenizePos(). 但是，如果您只想标记一个字符串，那么 UIMA 绝对是矫枉过正......

score 0 · Accepted Answer

0

你可以用BreakIterator做同样的事情，而不是使用任何外部 API。

于 2013-04-16T17:24:09.727 回答

java - Java NLP：在标记文本时提取索引

3 回答 3

Related

Reference