1

我正在做一个研究项目,我需要一个 NLP 程序来检测许多不同情况下的句子。有人建议我使用 OpenNLP,并且在阅读了它的 wiki 页面后我确信会使用它。因此,我使用 OpenNLP 来检测句子以及任何不属于句子的单词或短语(也称为句子片段)。

如果您想重定向输入,OpenNLP 接受 .txt 文件作为输入。如果要使用 .doc 文件作为输入,则必须将其转换为 .txt 文件。我的问题从这里开始。

我有许多不同格式的文件。我想检测每个文件中的句子是否包含任何文本。因此,我开始将每个可能包含文本的文件转换为 .txt 文件。转换过程并不完美。例如,如果一个句子太长(比一行长),那么转换工具将句子的两行作为分隔的句子。这导致 OpenNLP 将每一行生成为不同的句子,因为第一行末尾的 eoln 字符。

我的问题是,无论如何我可以参数化或配置 OpenNLP 以识别整个句子(第一行和第二行一起)?

4

2 回答 2

1

我建议你,使用 apache Tika 来转换不同的文件。Apache Tika 有 AutoDetectParser 可以检测不同的文件类型并提取其中的数据(如果需要,甚至是元数据),您可以将其保存到 .txt 文件中。

于 2016-05-23T14:04:13.210 回答
0

尝试用 CoreNLP 替换空格的新行:nlp.stanford.edu:8080/corenlp/process

于 2014-06-03T20:05:51.893 回答