我正在做一个研究项目,我需要一个 NLP 程序来检测许多不同情况下的句子。有人建议我使用 OpenNLP,并且在阅读了它的 wiki 页面后我确信会使用它。因此,我使用 OpenNLP 来检测句子以及任何不属于句子的单词或短语(也称为句子片段)。
如果您想重定向输入,OpenNLP 接受 .txt 文件作为输入。如果要使用 .doc 文件作为输入,则必须将其转换为 .txt 文件。我的问题从这里开始。
我有许多不同格式的文件。我想检测每个文件中的句子是否包含任何文本。因此,我开始将每个可能包含文本的文件转换为 .txt 文件。转换过程并不完美。例如,如果一个句子太长(比一行长),那么转换工具将句子的两行作为分隔的句子。这导致 OpenNLP 将每一行生成为不同的句子,因为第一行末尾的 eoln 字符。
我的问题是,无论如何我可以参数化或配置 OpenNLP 以识别整个句子(第一行和第二行一起)?