这是我的代码。到目前为止,它会将 pdf 的所有内容打印到 pages 变量中。但是,我似乎无法返回相同的提取文本。我一直在通过从随机 pdf 中提取信息并将其放在我正在调用的文件夹中来测试它。如何让它以与打印相同的方式返回提取的文本?
import os
import PyPDF2 as pdf
import pandas as pd
def scan_files(root):
for path, subdirs, files in os.walk(root):
for name in files:
if name.endswith('.pdf'):
#print(name)
pdf = PyPDF2.PdfFileReader(os.path.join(path,name))
numPages = pdf.getNumPages()
for p in range(0, numPages):
pages = ''
page = pdf.getPage(p)
pages += page.extractText()
pages = pages.replace('\n', '')
#print(pages)
return pages