Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有几份 PDF 格式的文件,几乎都是抄本。我正在寻找一种方法来搜索这些成绩单(并使其自动化)并从本质上刮掉对话/标题/等。到原始数据(例如“X 说了多少次 Y?”)
有没有一种方法可以将 PDF 转换为更友好的格式(例如 HTML 或伪 HTML),这样我可以准确地看到发生了什么?
我目前正在使用一个刮刀,它将所有包含的文本转换为一个 txt 文件,这很有用,除了它会抛出格式(粗体语句等),这会使生活变得更轻松。
任何使用 Python 以这种方式浏览 PDF 的方法都将受到赞赏。
您可以查看我们的开源库 PDF2JSON。它将所有文本数据转换为 JSON 或 XML,以便您更轻松地检查它
http://code.google.com/p/pdf2json