Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Tesseract ORC 库从屏幕上拍摄的图像中提取文本。问题是大多数现代相机在拍照时也会捕捉显示屏上的像素。
无论如何,是否可以像过滤器或对位图进行阈值处理以将文本“提取”到更清晰的文本以获得更好的 tesseract 效果?
例如,在处理之前:
处理后(photoshop中的阈值效果):
Tesseract 有一个内置的阈值方法,TessBaseAPI#ThresholdRect. 你试过吗?如果是这样,您遇到了什么问题?
TessBaseAPI#ThresholdRect
如果它在某些图片上效果不佳,您可能想尝试查找一些“平均”或“自适应”阈值算法,因为看起来 Tesseract 是一个直接阈值,因此它可能无法很好地适应较暗/较亮图像没有一些调整。