3

我正在编写一段代码来自动检测扫描图像上的黑色嘈杂边框并将其裁剪掉。我的算法基于 2 个变量:灰度平均值(行/列中的像素)和位置(图像中的行/列)。


灰度平均值 图像是灰度的:这意味着任何像素的灰度值都在 0(黑色)、255(白色)范围内。
对于每一行/列像素,我估计该行/列中所有像素的平均灰度值。
如果结果是暗的,则当前行/列是要切断的边框的一部分。

POSITION
位置是行/列距图像左上角的距离(以像素为单位)。

请查看以下图片以获得更好的想法。
扫描图像的缩略图:
扫描图像的缩略图
结果图表:
产生的字符

通过查看图表很容易估计裁剪点的位置,因为以下规则:大多数样本在实际纸张的白色窄范围(150-200)内,然后在尾部暗值快速变化。
那些快速的变化是裁剪点(还要注意,在尾巴的真正末端仍然可以有几个像素的白色,但这种情况很少发生)。

我想自动完成,有什么统计数据可以帮助我吗?
PS:我是一名计算机工程师,我研究过一些统计数据,但是……太多年前了!!

在最好的情况下,代码应该适用于受黑色边框问题影响的任何扫描图像,但是,真正做到这一点,我会很高兴让它适用于这些示例:
https ://docs.google.com/folder/ d/0B8ubCWBwsuOON3d1VVo4Z1AxWDA/编辑

4

1 回答 1

4

预处理图像使统计数据更容易。对于您的情况,带有宽水平线的形态闭合,然后是 Otsu 阈值(统计上最优)使任务变得更加容易。形态开口在这里很有趣,因为它会特别使纸张区域更轻。您有两个边界区域模糊的示例,即它也包含浅色部分,但这并不会使这一步毫无用处。之后,只需按列按行求和,根据均值和标准差划定边界即可。如果值低于mean - x*stddev,那么它就在纸之外。通过这种方式,您可以定义用于裁剪图像的纸张的左上角和右下角。定义这些角的最简单方法是向前和向后线性遍历找到的总和,当不满足较早的条件时停止。

对于您的图像,x在 [-1.5, -1] 范围内有效(以及其他,我在那里测试过)。我将关闭运算符的水平线大小固定为 101 点。以下是结果(如果需要比较,可以包括角坐标):

在此处输入图像描述 在此处输入图像描述

在此处输入图像描述 在此处输入图像描述

正如已经指出的那样,问题在于这些图像中的一些还包含白色边框,就像在下一个案例中一样(它们与纸张相连)。为了处理这个问题,在图像是二进制图像之后,考虑应用形态学开口,因为这有望断开组件。你可以使用一个大的结构元素,我使用了 51 x 51 的尺寸之一,这对于你的图像尺寸来说并不是那么大。主要限制是您正在使用的库的实现,因为如果实现不好,这可能会变慢(具体来说,scipy 没有快速实现)。之后,只保留最大的组件并照常进行。

在此处输入图像描述 在此处输入图像描述

示例代码:

import sys
import numpy
import cv2 as cv
from PIL import Image, ImageOps, ImageDraw
from scipy.ndimage import morphology, label


img = ImageOps.grayscale(Image.open(sys.argv[1]))
im = numpy.array(img, dtype=numpy.uint8)

im = morphology.grey_closing(img, (1, 101))
t, im = cv.threshold(im, 0, 1, cv.THRESH_OTSU)

# "Clean noise".
im = morphology.grey_opening(im, (51, 51))
# Keep largest component.
lbl, ncc = label(im)
largest = 0, 0
for i in range(1, ncc + 1):
    size = len(numpy.where(lbl == i)[0])
    if size > largest[1]:
        largest = i, size
for i in range(1, ncc + 1):
    if i == largest[0]:
        continue
    im[lbl == i] = 0


col_sum = numpy.sum(im, axis=0)
row_sum = numpy.sum(im, axis=1)
col_mean, col_std = col_sum.mean(), col_sum.std()
row_mean, row_std = row_sum.mean(), row_sum.std()

row_standard = (row_sum - row_mean) / row_std
col_standard = (col_sum - col_mean) / col_std

def end_points(s, std_below_mean=-1.5):
    i, j = 0, len(s) - 1
    for i, rs in enumerate(s):
        if rs > std_below_mean:
            break
    for j in xrange(len(s) - 1, i, -1):
        if s[j] > std_below_mean:
            break
    return (i, j)

# Bounding rectangle.
x1, x2 = end_points(col_standard)
y1, y2 = end_points(row_standard)

#img.crop((x1, y1, x2, y2)).save(sys.argv[2]) # Crop.
result = img.convert('RGB')
draw = ImageDraw.Draw(result)
draw.line((x1, y1, x2, y1, x2, y2, x1, y2, x1, y1),
        fill=(0, 255, 255), width=15)
result.save(sys.argv[2]) # Save with the bounding rectangle.
于 2013-01-13T05:27:13.443 回答