0

我正在处理已转换为文本的 PDF。问题?有时,由于不稳定的 PDF 格式和/或 PDF 到文本的转换,句子会被拆分。

因此,我正在寻找有助于“重组”被拆分的句子的工具。页眉或页脚通常是罪魁祸首。其他元素,例如数字和图表,也可以发挥作用,但它们不是我现在最关心的问题。

这个问题可以通过以下几种方式解决:

  1. 在进行 NLP 句子检测之前删除页眉和页脚肯定会有所帮助。我不知道执行此操作的工具。你知道工具或方法吗?(删除页码的一般想法在理论上是“容易的”:找到大约每页出现一次的连续递增数字。)

  2. 使用可以判断句子语法正确可能性的 NLP 解析器会有所帮助。这样我就可以比较两个句子的语法正确性和它们合并的正确性。(据我所知,Stanford Parser 不评估语法正确性。)您知道可以提供帮助的工具吗?

如果您有解决问题的建议、答案或其他方法,请告诉我。

4

1 回答 1

1

使用 Apache Tika 从 pdf 中提取数据。

于 2016-05-23T14:10:46.397 回答