pdf - 如何重新组合拆分的句子？

Question

我正在处理已转换为文本的 PDF。问题？有时，由于不稳定的 PDF 格式和/或 PDF 到文本的转换，句子会被拆分。

因此，我正在寻找有助于“重组”被拆分的句子的工具。页眉或页脚通常是罪魁祸首。其他元素，例如数字和图表，也可以发挥作用，但它们不是我现在最关心的问题。

这个问题可以通过以下几种方式解决：

在进行 NLP 句子检测之前删除页眉和页脚肯定会有所帮助。我不知道执行此操作的工具。你知道工具或方法吗？（删除页码的一般想法在理论上是“容易的”：找到大约每页出现一次的连续递增数字。）
使用可以判断句子语法正确可能性的 NLP 解析器会有所帮助。这样我就可以比较两个句子的语法正确性和它们合并的正确性。（据我所知，Stanford Parser 不评估语法正确性。）您知道可以提供帮助的工具吗？

如果您有解决问题的建议、答案或其他方法，请告诉我。

score 1 · Accepted Answer

1

使用 Apache Tika 从 pdf 中提取数据。

于 2016-05-23T14:10:46.397 回答

1 回答 1