-1

我正在尝试阅读以下 pdf 文件,我需要将每篇文章保存在单独的文件中。

https://dl.dropboxusercontent.com/u/23092311/sample.pdf

一篇文章可以在一页或多页中。我使用 PDFMiner 将整个 pdf 转换为 txt 文件。但我不知道如何转换成多篇文章。

我是 Python 新手。请提供最好的方法或示例代码来分别提取每篇文章?

4

1 回答 1

0

我会诚实的。我之前没用过PDFMiner,但是如果你已经把PDF转成文本文件了,难道不能直接把文本文件解析成字符串,然后根据“The纽约时报》的标题?我想这是假设 PDFMiner 能够阅读我不知道是否可能的那种花哨的字体。

查看您提供的文件,您可能类似于以下内容:

reading = open('test.txt')
full_paper = reading.read()
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.')

然后 split_paper 将是一个数组,其中包含您在索引 1、2、3、4、5、6 中的文章(索引 0 将包含初始标题)。您必须进行其他一些字符串清理才能获得确切的文章,但这至少应该让您开始。

说得通?

于 2014-01-24T16:21:14.080 回答