1

处理从给定图像中检索内容的项目,并与存储库中的其他图像进行比较并列出匹配的图像。

应该采取什么正确的方法来做到这一点,以便搜索最终不会减慢。

作为第一级过滤,我计划做的是使用任何图像查询(CBIR 技术)来检索与给定图像模式匹配的图像。然后进行 OCR 以获取图像内容并进行匹配检查。

请让我知道是否有更好的方法。

4

1 回答 1

0

完成的步骤

软件 1. Tesseract OCR 2. Image Magick - 用于图像清理 3. Textcleaner 脚本

  1. 使用 Image Magick 软件找出图像方向

    • 转换包具有使用 EXIF 数据查找图像方向的功能,这不是很有用。
    • 因为这张图片被旋转了三次 90 度,并且将每个的 ocr 数据与另一个进行比较以找到正确的方向。(字数最多的图片获胜)
  2. 对图像进行 OCRed 以获取文本并应用过滤以获取账单编号、日期和金额。

    • 成功时将详细信息存储在数据库中以供将来搜索
    • 失败时
      • 使用不同的过滤器创建了 10 个不同的图像(灰度模式和锐化应用)
      • 对所有图像进行 OC 扫描,并从获得的所有数据中找出所需的数据。
  3. 保存的数据用于将来的搜索功能以消除重复

于 2015-10-08T14:13:04.180 回答