nlp - OpenNLP SentenceDetector 无法识别整个句子

Question

我正在做一个研究项目，我需要一个 NLP 程序来检测许多不同情况下的句子。有人建议我使用 OpenNLP，并且在阅读了它的 wiki 页面后我确信会使用它。因此，我使用 OpenNLP 来检测句子以及任何不属于句子的单词或短语（也称为句子片段）。

如果您想重定向输入，OpenNLP 接受 .txt 文件作为输入。如果要使用 .doc 文件作为输入，则必须将其转换为 .txt 文件。我的问题从这里开始。

我有许多不同格式的文件。我想检测每个文件中的句子是否包含任何文本。因此，我开始将每个可能包含文本的文件转换为 .txt 文件。转换过程并不完美。例如，如果一个句子太长（比一行长），那么转换工具将句子的两行作为分隔的句子。这导致 OpenNLP 将每一行生成为不同的句子，因为第一行末尾的 eoln 字符。

我的问题是，无论如何我可以参数化或配置 OpenNLP 以识别整个句子（第一行和第二行一起）？

score 1 · Accepted Answer

我建议你，使用 apache Tika 来转换不同的文件。Apache Tika 有 AutoDetectParser 可以检测不同的文件类型并提取其中的数据（如果需要，甚至是元数据），您可以将其保存到 .txt 文件中。

score 0 · Accepted Answer

0

尝试用 CoreNLP 替换空格的新行：nlp.stanford.edu:8080/corenlp/process

于 2014-06-03T20:05:51.893 回答

nlp - OpenNLP SentenceDetector 无法识别整个句子

2 回答 2

Related

Reference