处理从给定图像中检索内容的项目,并与存储库中的其他图像进行比较并列出匹配的图像。
应该采取什么正确的方法来做到这一点,以便搜索最终不会减慢。
作为第一级过滤,我计划做的是使用任何图像查询(CBIR 技术)来检索与给定图像模式匹配的图像。然后进行 OCR 以获取图像内容并进行匹配检查。
请让我知道是否有更好的方法。
完成的步骤
软件 1. Tesseract OCR 2. Image Magick - 用于图像清理 3. Textcleaner 脚本
使用 Image Magick 软件找出图像方向
对图像进行 OCRed 以获取文本并应用过滤以获取账单编号、日期和金额。
保存的数据用于将来的搜索功能以消除重复