阅读一篇论文,我很难理解所描述的算法:
给定手写样本的黑白数字图像,剪下一个字符进行分析。由于这可以是任意大小,因此算法需要考虑到这一点(如果更容易,我们可以假设大小为 2^nx 2^m)。
现在,给定此图像的描述状态,我们将其转换为 512 位特征(512 位哈希),如下所示:
(192 位)通过将图像与 3x3 Sobel 算子进行卷积来计算图像的梯度。每个边缘的梯度方向被量化为 12 个方向。
(192 位)结构特征生成器获取梯度图并在邻域中查找梯度值的某些组合。(用于计算代表图像中线和角的 8 个不同特征)
(128 位)凹度生成器使用 8 点星形算子来查找 4 个方向、孔和大型笔划上的粗凹度。
图像特征图使用 4x4 网格进行归一化。
我现在正在努力解决如何拍摄任意图像,分成 16 个部分,并使用 3x3 Sobel 运算符为每个部分提供 12 位。(但如果您对其他部分有所了解,请随时发表评论:)