我有 55 000 个图像文件(JPG 和 TIFF 格式),它们是书中的图片。
每个页面的结构是这样的:
一些文字
---(水平线)---
一个号码
一些文字
---(水平线)---
另一个号码
一些文字
任何给定页面上可以有 0 到 4 条水平线。
我需要找到数字是多少,就在水平线的下方。
但是,数字严格遵循彼此,从第一页的一个开始,所以为了找到数字,我不需要阅读它:我可以检测水平线的存在,这应该既容易又安全尝试对页面进行 OCR 以检测数字。
该算法基本上是:
for each image
count horizontal lines
print image name, number of horizontal lines
next image
问题是:执行“计算水平线”部分的最佳图像库/语言是什么?