pytesseract.image_to_data()
是否可以使用输出追溯写入 pdf 文件?
对于我的 OCR 管道,我需要对我的 pdf 的 ocr'ed 数据进行精细访问。我要求使用这种方法:
ocr_dataframe = pytesseract.image_to_data(
tesseract_image,
output_type=pytesseract.Output.DATAFRAME,
config=PYTESSERACT_CUSTOM_CONFIG
)
现在,我想使用 pdfplumber 从 pdf 中提取一些表格数据。但是,必须使用以下三个输入之一来馈送 pdfplumber:
- PDF 文件的路径
- 文件对象,作为字节加载
- 类文件对象,作为字节加载
我知道我可以使用 pytesseract 使用以下方法将我的原始 pdf 转换为可搜索的(以字节表示):
# Get a searchable PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
但是,我想避免 ocr'ing 我的 pdf 两次。是否可以将输出pytesseract.image_to_data()
与原始图像结合起来并创建某种字节表示?
任何帮助将非常感激!