1

Python 3.6.1 Mac OSX

关于 Tesseract,我尝试了很多不同的示例/模板代码,我在网上找到了 PDF -> 文本和图像 -> 文本。它们似乎都不起作用。

如果您知道一个有效的代码或一个为 Tesseract、Poppler 或两者提供良好教程的网站,请告诉我。

Pytesser 似乎已经过时了。Magick 似乎是一个仅限 Windows 的程序。魔杖似乎也没有帮助。

Tesseract-OCR 是我正在尝试使用的 ,但我不知道如何为其设置代码,也找不到有效的好教程。我只能找到安装教程。

我可以将 Poppler 用于 PDF->Text但遇到了需要提取的 PDF 图像。我假设我需要一个单独的代码来获取 PDF 并将其转换为图像文件,然后需要一个用于将图像转换为文本文件的代码 (Teseseract)。或者我可以使用 Poppler 的 PDFImage,我不知道如何编码(这里的帮助也将非常感激)。

我的 Poppler PDF to Text 代码是:

import csv, re, requests, subprocess, sys

url = (
    'http://gwinnetttaxcommissioner.publicaccessnow.com/'
    'Portals/0/PDF/Excess%20funds%20all%20years%20-%20rev02232017.pdf'
)

r = requests.get(url, headers={'user-agent': 'Mozilla/5.0'})

filename = url.split('/')[-1].replace('%20', ' ')
with open(filename, 'wb') as fh:
    fh.write(r.content)

subprocess.call(['pdftotext', '-layout', filename])

writer = csv.writer(sys.stdout)
with open(filename[:-3] + 'txt') as fh:
    text = fh.read()
    for line in re.findall('(?m)^\d.+\d$', text):
        writer.writerow(re.split(r' {3,}', line))

而且效果很好。

我不知道如何格式化 Poppler 的 PDFImage。

此外,我将如何在 Tesseract 中实现类似的东西,因为它是最好的 OCR 之一?

4

0 回答 0