预处理图像使统计数据更容易。对于您的情况,带有宽水平线的形态闭合,然后是 Otsu 阈值(统计上最优)使任务变得更加容易。形态开口在这里很有趣,因为它会特别使纸张区域更轻。您有两个边界区域模糊的示例,即它也包含浅色部分,但这并不会使这一步毫无用处。之后,只需按列按行求和,根据均值和标准差划定边界即可。如果值低于mean - x*stddev
,那么它就在纸之外。通过这种方式,您可以定义用于裁剪图像的纸张的左上角和右下角。定义这些角的最简单方法是向前和向后线性遍历找到的总和,当不满足较早的条件时停止。
对于您的图像,x
在 [-1.5, -1] 范围内有效(以及其他,我在那里测试过)。我将关闭运算符的水平线大小固定为 101 点。以下是结果(如果需要比较,可以包括角坐标):
正如已经指出的那样,问题在于这些图像中的一些还包含白色边框,就像在下一个案例中一样(它们与纸张相连)。为了处理这个问题,在图像是二进制图像之后,考虑应用形态学开口,因为这有望断开组件。你可以使用一个大的结构元素,我使用了 51 x 51 的尺寸之一,这对于你的图像尺寸来说并不是那么大。主要限制是您正在使用的库的实现,因为如果实现不好,这可能会变慢(具体来说,scipy 没有快速实现)。之后,只保留最大的组件并照常进行。
示例代码:
import sys
import numpy
import cv2 as cv
from PIL import Image, ImageOps, ImageDraw
from scipy.ndimage import morphology, label
img = ImageOps.grayscale(Image.open(sys.argv[1]))
im = numpy.array(img, dtype=numpy.uint8)
im = morphology.grey_closing(img, (1, 101))
t, im = cv.threshold(im, 0, 1, cv.THRESH_OTSU)
# "Clean noise".
im = morphology.grey_opening(im, (51, 51))
# Keep largest component.
lbl, ncc = label(im)
largest = 0, 0
for i in range(1, ncc + 1):
size = len(numpy.where(lbl == i)[0])
if size > largest[1]:
largest = i, size
for i in range(1, ncc + 1):
if i == largest[0]:
continue
im[lbl == i] = 0
col_sum = numpy.sum(im, axis=0)
row_sum = numpy.sum(im, axis=1)
col_mean, col_std = col_sum.mean(), col_sum.std()
row_mean, row_std = row_sum.mean(), row_sum.std()
row_standard = (row_sum - row_mean) / row_std
col_standard = (col_sum - col_mean) / col_std
def end_points(s, std_below_mean=-1.5):
i, j = 0, len(s) - 1
for i, rs in enumerate(s):
if rs > std_below_mean:
break
for j in xrange(len(s) - 1, i, -1):
if s[j] > std_below_mean:
break
return (i, j)
# Bounding rectangle.
x1, x2 = end_points(col_standard)
y1, y2 = end_points(row_standard)
#img.crop((x1, y1, x2, y2)).save(sys.argv[2]) # Crop.
result = img.convert('RGB')
draw = ImageDraw.Draw(result)
draw.line((x1, y1, x2, y1, x2, y2, x1, y2, x1, y1),
fill=(0, 255, 255), width=15)
result.save(sys.argv[2]) # Save with the bounding rectangle.