0

我想从 OCR 数据中提取表格信息,我有原始文本,它是文本。我尝试了 pytesseract 但找不到实际的实现。

这是一张图片:https ://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l

我试过这个:https ://github.com/WZBSocialScienceCenter/pdftabextract

这种方法对我根本不起作用。

我想从 OCR 数据中获得该表的表格结构,以供我进一步处理。

4

1 回答 1

0

pdftabextract 不是 OCR。它需要带有 OCR 信息的扫描页面,即包含扫描图像和识别文本的“三明治 PDF”。您需要像 tesseract 或 ABBYY Finereader 这样的软件来进行 OCR。

请尝试 tesseract 它的实现相对容易。

于 2019-01-20T05:29:40.367 回答