1

我想获得许多扫描书籍(即波斯语(阿拉伯语脚本))中每个单词的小图像。我没有图像处理方面的实验。
我怎样才能以最有效的方式做到这一点?

4

1 回答 1

3

我建议你在 MATLAB 中编写一个类似这样的脚本。
a :字母之间最大距离的一半。(以像素为单位)
b :单词之间的最小距离的一半。(以像素为单位)
(希望 a < b )

对页面的扫描图像设置阈值。

I(I < Th) = 0;I(I > Th) = 1;  

通过实验选择“Th”。您应该得到一个二进制图像“我”,其中字母为 1。放大图像。

imdilate(I,a); 

这会将字母连接在一起。
去除噪音。

I = bwareaopen(I,n); 

这将删除所有少于 n 个像素的连接组件。
进行连通分量分析。

CC = bwconncomp(I);  
Rect = regionprops(I,'BoundingBox');  

这将返回包含单个单词的矩形的坐标列表。从原始副本中提取子矩阵并使用 imwrite() 写入图像。

于 2012-04-10T09:44:13.663 回答