java - 如何使用 java 解析 pdf，其中使用 Latex 生成（以获得章节或部分的结构）

Question

我有个问题。我正在尝试从 pdf 文档中提取结构化文本。由于 pdf 通常没有结构，我想我可以开始解析用乳胶生成的 pdf，它应该有一些结构。

您知道我可以使用 Latex 生成的 pdf 文件中的任何模式来解析 pdf 吗？

score 4 · Accepted Answer

查看PDF Box，用于从 PDF 文档中解析文本。或者您可以使用Apache Tika，它提供对多种文档类型的解析，具有标准接口（可能有点矫枉过正）。我不建议尝试手动执行此操作。

score 0 · Accepted Answer

商业解决方案 Infty 阅读器

http://www.sciaccess.net/en/InftyReader/index.html

在试用模式下，每次识别限制为一页，每天识别五页。

与终端

2 回答 2