16

我有一个使用 Google Vision API DOCUMENT_TEXT_DETECTION 来从文档图像中提取文本的项目。

API 通常无法识别单个数字,如下图所示:

在此处输入图像描述

我想这个问题可能与一些去除噪声的算法有关,它将孤立的单个数字识别为噪声。有没有办法在这些情况下改善视力反应?(例如管理噪声阈值或其他参数)

在其他时候,Vision 将数字与字母混淆:

在此处输入图像描述

但是如果我指定参数 languageHints = 'en' 或 'mt' 这些数字会被 ocr 忽略。有没有办法强制识别数字或拉丁字符?

4

1 回答 1

1

不幸的是,我认为 Vision API 针对频谱的两端进行了优化——一端是密集文本 ( DOCUMENT_TEXT_DETECTION),另一端是任意位的文本 ( TEXT_DETECTION)。正如您在评论中指出的那样,常规TEXT_DETECTION对于这些杂散的个位数效果更好,而DOCUMENT_TEXT_DETECTION整体效果更好。

据我所知,目前没有计划尝试以单一方式涵盖这两个方面,但未来可能会有所改善。

我认为还有其他要求对您要检测的内容进行更多微调和提示(例如,herehere),但这似乎尚不可用。也许在未来您将能够提供更多关于您希望在图像中找到的文本格式的提示(例如,电话号码、个位数等)。

于 2019-05-28T17:23:49.097 回答