扫描文档的智能裁剪
最近我接手了一个旧书/手稿的保存项目。它们数量庞大,将近 10,000 页。我不得不用便携式扫描仪手动扫描它们,因为它们不适合在自动书籍扫描仪中进行扫描。
当我开始在 Photoshop 中编辑它们时,真正的问题就出现了。请注意,它们基本上都是文档(JPG 格式),并且这些文档中绝对没有图像。它们使用不同的语言(奥里亚语),我相信在不久的将来不会有任何 OCR 软件可用。(如果有请告诉我。)
为了使这些图像(文档)看起来干净优雅,我必须裁剪它们,定位它们,增加一点对比度,用橡皮擦清洁不必要的斑点等等。我能够在 Photoshop 中自动化大部分这些过程,但裁剪是我卡住的地方。我无法自动裁剪,因为该软件无法识别该 img (doc) 的某个区域中是否存在文本或内容;它只是将赋予它的值应用于裁剪。
我想要一个解决方案来自动化这个裁剪过程。我已经想出了一个想法,我不知道它是否足够实用,据我所知,市场上没有软件可以做这种事情。
可能的解决方案:如果工具可以识别图像中文本的存在(这不是很关键,因为它们都是普通文档图像,其中没有图像,没有图案只是普通矩形)并裁剪它,这可能是可能的从每一侧的这些文本的边界开始,因此它可以输出没有任何边距的文档图像。在这之后,其余的任务可以使用 Photoshop 自动完成,例如为边距添加空白,调整对比度和颜色使其更具可读性等。
这是画廊的专辑链接。如果有用的话,我可以发布更多示例图片 - 请告诉我。
这是通过上述链接获得的更大图像样本中的一个示例: