pdf - 表格检测算法

Question

语境

我有一堆 PDF 文件。其中一些被扫描（即图像）。它们由文字+图片+表格组成。

我想将表格转换为 CSV 文件。

1) 运行 Tesseract OCR 以获取所有文档的文本。

2）？？？运行某种类型的表检测算法？？？

3）提取行/列/单元格，以及其中的文本。

是否有一些标准的“表提取算法”可以使用？

谢谢！

score 2 · Accepted Answer

Abbyy Fine Reader 包括表格检测，将是最简单的方法。它可以扫描、导入 PDF、TIFF 等。当自动检测失败时，您还可以手动调整表格和列。

www.abbyy.com - 您应该可以下载试用版，您还会发现 OCR 结果比 Tesseract 准确得多，这也将为您节省大量时间。

由于有太多不同类型的表格需要处理，因此尝试自己编写一些东西会受到打击。IE。有线条，没有线条，阴影，多行，不同的对齐方式，页眉，页脚等。

祝你好运。