pdf - 将PDF刮成更友好的东西

Question

我有几份 PDF 格式的文件，几乎都是抄本。我正在寻找一种方法来搜索这些成绩单（并使其自动化）并从本质上刮掉对话/标题/等。到原始数据（例如“X 说了多少次 Y？”）

有没有一种方法可以将 PDF 转换为更友好的格式（例如 HTML 或伪 HTML），这样我可以准确地看到发生了什么？

我目前正在使用一个刮刀，它将所有包含的文本转换为一个 txt 文件，这很有用，除了它会抛出格式（粗体语句等），这会使生活变得更轻松。

任何使用 Python 以这种方式浏览 PDF 的方法都将受到赞赏。

score 1 · Accepted Answer

您可以查看我们的开源库 PDF2JSON。它将所有文本数据转换为 JSON 或 XML，以便您更轻松地检查它

1 回答 1