我有一个充满报价的 PDF:
https://www.pdf-archive.com/2017/03/22/test/
我可以使用以下代码在 python 中提取文本:
import PyPDF2
pdfFileObj = open('example.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
print (pageObj.extractText())
这会将所有引号作为一个段落返回。是否可以通过水平分隔符“拆分”pdf并将其拆分为引号?