1

我有一个充满报价的 PDF:

https://www.pdf-archive.com/2017/03/22/test/

我可以使用以下代码在 python 中提取文本:

import PyPDF2

pdfFileObj = open('example.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
print (pageObj.extractText())

这会将所有引号作为一个段落返回。是否可以通过水平分隔符“拆分”pdf并将其拆分为引号?

4

3 回答 3

1

如果您只想从 pdf 文本中提取引号,您可以使用它regex来查找所有引号。

import PyPDF2
import re
pdfFileObj = open('test.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
text = str(pageObj.extractText())

quotes = re.findall(r'"[^"]*"',text)
for quote in quotes:
    print quote
    print 

要不就

quotes = re.findall(r'"[^"]*"',text)
print quotes
于 2017-03-22T21:35:21.537 回答
0

我找不到通过水平分隔符拆分它的方法,但我设法以另一种方式做到了:

import PyPDF2

quotes = []

pdfFileObj = open('test.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
for x in (pageObj.extractText()).split('"\n'): print x+"\n"*5
于 2017-03-22T21:26:38.230 回答
0
import pdfplumber

pdf = pdfplumber.open(file_path)

p0 = pdf.pages[0]

text = p0.extract_text()

text
于 2019-07-10T08:43:40.953 回答