0

语境

我有一堆 PDF 文件。其中一些被扫描(即图像)。它们由文字+图片+表格组成。

我想将表格转换为 CSV 文件。

当前计划:

1) 运行 Tesseract OCR 以获取所有文档的文本。

2)???运行某种类型的表检测算法???

3)提取行/列/单元格,以及其中的文本。

问题:

是否有一些标准的“表提取算法”可以使用?

谢谢!

4

1 回答 1

2

Abbyy Fine Reader 包括表格检测,将是最简单的方法。它可以扫描、导入 PDF、TIFF 等。当自动检测失败时,您还可以手动调整表格和列。

www.abbyy.com - 您应该可以下载试用版,您还会发现 OCR 结果比 Tesseract 准确得多,这也将为您节省大量时间。

由于有太多不同类型的表格需要处理,因此尝试自己编写一些东西会受到打击。IE。有线条,没有线条,阴影,多行,不同的对齐方式,页眉,页脚等。

祝你好运。

于 2012-05-27T07:13:40.360 回答