0

我有几份 PDF 格式的文件,几乎都是抄本。我正在寻找一种方法来搜索这些成绩单(并使其自动化)并从本质上刮掉对话/标题/等。到原始数据(例如“X 说了多少次 Y?”)

有没有一种方法可以将 PDF 转换为更友好的格式(例如 HTML 或伪 HTML),这样我可以准确地看到发生了什么?

我目前正在使用一个刮刀,它将所有包含的文本转换为一个 txt 文件,这很有用,除了它会抛出格式(粗体语句等),这会使生活变得更轻松。

任何使用 Python 以这种方式浏览 PDF 的方法都将受到赞赏。

4

1 回答 1

1

您可以查看我们的开源库 PDF2JSON。它将所有文本数据转换为 JSON 或 XML,以便您更轻松地检查它

http://code.google.com/p/pdf2json

于 2014-02-08T03:46:25.383 回答