1

我不想知道它在说什么,也不会像 CAPTCHA 那样处理任何失真,我只想知道一堆图像是否包含任何文本。

这将在几个空闲的 Linux 服务器上运行,一个 cron 作业将每天多次处理大量图像。

在此过程中,我想做的一件事是丢弃任何带有文本的图像。我不介意一些误报,但在识别带有应尽可能丢弃的文本的图像时,我希望尽可能接近零失败率。

4

1 回答 1

2

Tesseract-OCR是 google 用于 Google 图书的。试试看。

于 2009-07-04T05:01:00.837 回答