Python 3.6.1 Mac OSX
关于 Tesseract,我尝试了很多不同的示例/模板代码,我在网上找到了 PDF -> 文本和图像 -> 文本。它们似乎都不起作用。
如果您知道一个有效的代码或一个为 Tesseract、Poppler 或两者提供良好教程的网站,请告诉我。
Pytesser 似乎已经过时了。Magick 似乎是一个仅限 Windows 的程序。魔杖似乎也没有帮助。
Tesseract-OCR 是我正在尝试使用的 ,但我不知道如何为其设置代码,也找不到有效的好教程。我只能找到安装教程。
我可以将 Poppler 用于 PDF->Text,但遇到了需要提取的 PDF 图像。我假设我需要一个单独的代码来获取 PDF 并将其转换为图像文件,然后需要一个用于将图像转换为文本文件的代码 (Teseseract)。或者我可以使用 Poppler 的 PDFImage,我不知道如何编码(这里的帮助也将非常感激)。
我的 Poppler PDF to Text 代码是:
import csv, re, requests, subprocess, sys
url = (
'http://gwinnetttaxcommissioner.publicaccessnow.com/'
'Portals/0/PDF/Excess%20funds%20all%20years%20-%20rev02232017.pdf'
)
r = requests.get(url, headers={'user-agent': 'Mozilla/5.0'})
filename = url.split('/')[-1].replace('%20', ' ')
with open(filename, 'wb') as fh:
fh.write(r.content)
subprocess.call(['pdftotext', '-layout', filename])
writer = csv.writer(sys.stdout)
with open(filename[:-3] + 'txt') as fh:
text = fh.read()
for line in re.findall('(?m)^\d.+\d$', text):
writer.writerow(re.split(r' {3,}', line))
而且效果很好。
我不知道如何格式化 Poppler 的 PDFImage。
此外,我将如何在 Tesseract 中实现类似的东西,因为它是最好的 OCR 之一?