ocr - 使用 PB、EZTWAIN 和 TOCR 3.0 无法识别带有希腊单词的 pdf 扫描页面

Question

我正在使用 Dosadi 的 PB 10.5.2 和 EZTwain 3.30.0.28、XDefs 1.36b1 进行扫描。

我也在使用 TOCR 3.0 进行 OCR 管理。

在一个函数中，我们使用以下所有其他内容：

...

Long ll_acquire

(as_path_filename is a function argument)

...

...

TWAIN_SetAutoOCR(1)

ll_acquire = TWAIN_AcquireMultipageFile(0, as_path_filename)

问题是扫描的 pdf 页面有拉丁语（英语）和希腊语单词。英文字符被非常精确地搜索，但希腊文根本没有。

您认为这与 TOCR 软件有关吗？我只想搜索 AND 希腊词

提前致谢

score 1 · Accepted Answer

根据该网站，TOCR 可识别英语、法语、意大利语、德语、荷兰语、瑞典语、芬兰语、挪威语、丹麦语、西班牙语和葡萄牙语。您将需要能够处理希腊语和英语混合文本的软件。ABBYY FineReader Professional 列出了对英语和希腊语以及其他数十种语言的支持。

score 1 · Accepted Answer

OCR 软件应该是无法将希腊语单词转换为 OCR 文本的地方。看起来您正在将 EZTwain 用于 OCR 部分，该部分将 TOCR 用于其实际的 OCR 引擎。您可能需要查看该软件的文档，看看他们是否提到了可以修改以用于多语言使用的任何设置。

ocr - 使用 PB、EZTWAIN 和 TOCR 3.0 无法识别带有希腊单词的 pdf 扫描页面

2 回答 2

Related

Reference