python - 使用 Python 读取 pdf 内容

Question

我正在尝试阅读以下 pdf 文件，我需要将每篇文章保存在单独的文件中。

https://dl.dropboxusercontent.com/u/23092311/sample.pdf

一篇文章可以在一页或多页中。我使用 PDFMiner 将整个 pdf 转换为 txt 文件。但我不知道如何转换成多篇文章。

我是 Python 新手。请提供最好的方法或示例代码来分别提取每篇文章？

score 0 · Accepted Answer

我会诚实的。我之前没用过PDFMiner，但是如果你已经把PDF转成文本文件了，难道不能直接把文本文件解析成字符串，然后根据“The纽约时报》的标题？我想这是假设 PDFMiner 能够阅读我不知道是否可能的那种花哨的字体。

查看您提供的文件，您可能类似于以下内容：

reading = open('test.txt')
full_paper = reading.read()
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.')

然后 split_paper 将是一个数组，其中包含您在索引 1、2、3、4、5、6 中的文章（索引 0 将包含初始标题）。您必须进行其他一些字符串清理才能获得确切的文章，但这至少应该让您开始。

说得通？

python - 使用 Python 读取 pdf 内容

1 回答 1

Related

Reference