语境
我有一堆 PDF 文件。其中一些被扫描(即图像)。它们由文字+图片+表格组成。
我想将表格转换为 CSV 文件。
当前计划:
1) 运行 Tesseract OCR 以获取所有文档的文本。
2)???运行某种类型的表检测算法???
3)提取行/列/单元格,以及其中的文本。
问题:
是否有一些标准的“表提取算法”可以使用?
谢谢!
我有一堆 PDF 文件。其中一些被扫描(即图像)。它们由文字+图片+表格组成。
我想将表格转换为 CSV 文件。
1) 运行 Tesseract OCR 以获取所有文档的文本。
2)???运行某种类型的表检测算法???
3)提取行/列/单元格,以及其中的文本。
是否有一些标准的“表提取算法”可以使用?
谢谢!