4

我有个问题。我正在尝试从 pdf 文档中提取结构化文本。由于 pdf 通常没有结构,我想我可以开始解析用乳胶生成的 pdf,它应该有一些结构。

您知道我可以使用 Latex 生成的 pdf 文件中的任何模式来解析 pdf 吗?

4

2 回答 2

4

查看PDF Box,用于从 PDF 文档中解析文本。或者您可以使用Apache Tika,它提供对多种文档类型的解析,具有标准接口(可能有点矫枉过正)。我不建议尝试手动执行此操作。

于 2012-11-08T15:11:41.613 回答
0

商业解决方案 Infty 阅读器

http://www.sciaccess.net/en/InftyReader/index.html

在试用模式下,每次识别限制为一页,每天识别五页。

与终端

  • 快速而肮脏的解决方案,这可能需要大量的尝试和错误。

    1. 你的 pdf 必须是可解析的

      • pdftotext 'your-file.pdf' your-file.txt
    2. 你需要在你的 pdf 中有一个模式(就像每张幻灯片上的版权一样)

      • sed -n '/<PATTERN>/{n;n;n;p}' your-file.txt | awk '!x[$0]++' > your-file-structure.txt
      • 更改{n;n;n;p},因为它当前正在您的模式之后打印p下一个下一行n;n;n
      • awk '!x[$0]++'删除重复项
于 2014-07-07T13:55:37.067 回答