我想获得许多扫描书籍(即波斯语(阿拉伯语脚本))中每个单词的小图像。我没有图像处理方面的实验。
我怎样才能以最有效的方式做到这一点?
问问题
106 次
1 回答
3
我建议你在 MATLAB 中编写一个类似这样的脚本。
a :字母之间最大距离的一半。(以像素为单位)
b :单词之间的最小距离的一半。(以像素为单位)
(希望 a < b )
对页面的扫描图像设置阈值。
I(I < Th) = 0;I(I > Th) = 1;
通过实验选择“Th”。您应该得到一个二进制图像“我”,其中字母为 1。放大图像。
imdilate(I,a);
这会将字母连接在一起。
去除噪音。
I = bwareaopen(I,n);
这将删除所有少于 n 个像素的连接组件。
进行连通分量分析。
CC = bwconncomp(I);
Rect = regionprops(I,'BoundingBox');
这将返回包含单个单词的矩形的坐标列表。从原始副本中提取子矩阵并使用 imwrite() 写入图像。
于 2012-04-10T09:44:13.663 回答