python - 我想从 OCR 数据中提取表格信息

Question

我想从 OCR 数据中提取表格信息，我有原始文本，它是文本。我尝试了 pytesseract 但找不到实际的实现。

这种方法对我根本不起作用。

我想从 OCR 数据中获得该表的表格结构，以供我进一步处理。

score 0 · Accepted Answer

pdftabextract 不是 OCR。它需要带有 OCR 信息的扫描页面，即包含扫描图像和识别文本的“三明治 PDF”。您需要像 tesseract 或 ABBYY Finereader 这样的软件来进行 OCR。

请尝试 tesseract 它的实现相对容易。

1 回答 1