1

我有一个 python 脚本可以扫描收据,然后将其输出到扫描的文件中。在新文件上使用 tesseract imagefile outputfile。我可以获得良好的可读文本,但解析显示如下。有没有办法使用 tesseract 将购买的商品排列在价格旁边?我的偏好是用 PHP 或 Python 来做。

WHELE
POODS .4
M

Merchant Name and Address

365 BHCON LS

365 BHCON LS

365 BHCON LS

365 BHCON LS
BROTH CHIC

FLOUR HLHONO

CHKN BRST BNLSS SK
HEAVY CREHH

BHLSHC REOUCT

BEEF GRND 85/1§«
JUICE COF CHSHEU C

i . DOCS PINT ORGRNIC

NP 4.99
NP 4.99
NP 4.99
NP 4.99
NP 2.19
NRuqfl1.99
NP 18.80
NP 3.39
NP §.49
NP ’.04
NP ‘f:,99
NP 14.49

HNY HLMONO BUTTER NP 9.99

**** TEX .00 BRL
4

1 回答 1

1

尝试使用 -psm 参数。有关更多想法,请参阅 wiki[1]。

[1] https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

于 2015-12-20T11:28:19.523 回答