python - 使用python从pdf中获取文本数据

Question

我被困在如何在这里处理 pdf 上。我不知道如何直接从网络上抓取，当我在本地下载时它们完全是胡说八道，而不是实际的文本数据。

我曾尝试使用请求下载，但内容就没有用了。

import PyPDF2
#  textract
import requests
# from nltk.tokenize import word_tokenize
# from nltk.corpus import stopwords


def get_amount(url):
  data = requests.get(url)
  with open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf', 'wb') as f:
    f.write(data.content)

我想弄清楚如何从 pdf 中获取数据。任何建议将不胜感激！

score 1 · Accepted Answer

请修改如下：

import PyPDF2
pdf_file = open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
for i in number_of_pages:
    page = read_pdf.getPage(0)
    page_content = page.extractText()
    print page_content

python - 使用python从pdf中获取文本数据

1 回答 1

Related

Reference