3

python 用于解析在线 pdf 以备将来使用。我的代码如下。

from tika import parser
import requests
import io
url = 'https://www.whitehouse.gov/wp-content/uploads/2017/12/NSS-Final-12-18-2017-0905.pdf'
response = requests.get(url)
with io.BytesIO(response.content) as open_pdf_file:
    pdfFile = parser.from_file(open_pdf_file)
print(pdfFile)

然而,它显示

AttributeError:“_io.BytesIO”对象没有属性“解码”

我从如何从内联 raw_bytes(不是从文件)中读取 PDF 文件中举了一个例子?

在示例中,它使用 PyPDF2。但我需要使用 Tika,因为 Tika 的结果比 PyPDF2 好。

谢谢你的帮忙

4

1 回答 1

3

为了使用 tika,您需要安装 JAVA 8。您需要检索和打印 pdf 内容的代码如下:

from tika import parser

url = 'https://www.whitehouse.gov/wp-content/uploads/2017/12/NSS-Final-12-18-2017-0905.pdf'

pdfFile = parser.from_file(url)

print(pdfFile["content"])
于 2018-11-25T16:45:01.837 回答