我想使用一个自定义数据集,其中包含英语以外的其他语言的手写字符图像。我打算使用KNN算法对手写字符进行分类。
以下是我目前面临的一些挑战。1. 图片大小不一。- 我们如何解决这个问题,任何使用 Python 完成的 ETL 工作?2. 即使我们假设它们的大小相同,每个图像的潜在像素也会在 70 * 70 左右,因为字母比英语复杂,字符之间有很多特征。- 这对我的训练和表现有何影响?
我想使用一个自定义数据集,其中包含英语以外的其他语言的手写字符图像。我打算使用KNN算法对手写字符进行分类。
以下是我目前面临的一些挑战。1. 图片大小不一。- 我们如何解决这个问题,任何使用 Python 完成的 ETL 工作?2. 即使我们假设它们的大小相同,每个图像的潜在像素也会在 70 * 70 左右,因为字母比英语复杂,字符之间有很多特征。- 这对我的训练和表现有何影响?
选择一定的大小并调整所有图像的大小(例如使用 PIL 模块);
我想这取决于数据的质量和语言本身。如果字母很复杂(如象形文字),那就很难了。否则,如果用细线绘制字母,即使在小图片中也可以识别它们。
无论如何,如果绘制的字母彼此过于相似,当然会更难以识别它们。
一个有趣的想法不是简单地使用像素作为训练数据,您可以创建一些特殊功能,如下所述:http: //archive.ics.uci.edu/ml/datasets/Letter+Recognition