更新的答案
对于tesseract,您的图像相当小而且块状......
您可能会像这样使用 ImageMagick 更好地放大它们并锐化它们:
convert email.gif -resize 600x -unsharp 0x8 -threshold 95% x.png # Enlarge and sharpen
tesseract x.png text # OCR
结果
tour@chworldtraveI.com
如果您的 CSV 文件看起来像您的示例,并且名为file.csv
http://d1hnc0v5nyu4l2.cloudfront.net/kh/communications/original/1417577580/C2AFA720-7A9C-11E4-9201-22000AA51306?1417577580
http://d306v9rz034cgu.cloudfront.net /kh/communications/original/1367212416/55BE4627-B463-4523-8332-4046835D3D79?1367212416
你可能会写
#!/bin/bash
while read f; do
convert "$f" -resize 600x -unsharp 0x8 -threshold 95% image.png
tesseract image.png text
grep "[a-z0-9]" text.txt >> results.txt
done < file.csv
你的文件results.txt
将有
sale@myeIitetour.net
cambodia]et@onIine.com.kh
如果您确实打算在 OSX 上使用ImageMagick
or tesseract
,请考虑使用homebrew
. 它会让你的生活更轻松。不知道怎么问的。
原始答案
好吧,这可能是一个开始使用tesseract
. 基本上,您将输入图像文件的名称(email.png
在我的示例中)和输出文本文件的基础传递给它,如下所示:
tesseract email.png text -psm 7
然后你会在文件中得到一些text.txt
像这样的文本
lmAV@chwL7v\d1vave\z:um
您可以尝试各种不同的参数和策略来清理您的输入文件,可能使用 ImageMagick。
由于您没有说明您使用的是什么操作系统,或者您的 CSV 文件是什么样的,因此目前很难再提供任何帮助。