我正在尝试阅读以下 pdf 文件,我需要将每篇文章保存在单独的文件中。
https://dl.dropboxusercontent.com/u/23092311/sample.pdf
一篇文章可以在一页或多页中。我使用 PDFMiner 将整个 pdf 转换为 txt 文件。但我不知道如何转换成多篇文章。
我是 Python 新手。请提供最好的方法或示例代码来分别提取每篇文章?
我正在尝试阅读以下 pdf 文件,我需要将每篇文章保存在单独的文件中。
https://dl.dropboxusercontent.com/u/23092311/sample.pdf
一篇文章可以在一页或多页中。我使用 PDFMiner 将整个 pdf 转换为 txt 文件。但我不知道如何转换成多篇文章。
我是 Python 新手。请提供最好的方法或示例代码来分别提取每篇文章?
我会诚实的。我之前没用过PDFMiner,但是如果你已经把PDF转成文本文件了,难道不能直接把文本文件解析成字符串,然后根据“The纽约时报》的标题?我想这是假设 PDFMiner 能够阅读我不知道是否可能的那种花哨的字体。
查看您提供的文件,您可能类似于以下内容:
reading = open('test.txt')
full_paper = reading.read()
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.')
然后 split_paper 将是一个数组,其中包含您在索引 1、2、3、4、5、6 中的文章(索引 0 将包含初始标题)。您必须进行其他一些字符串清理才能获得确切的文章,但这至少应该让您开始。
说得通?