我正在使用 SHA-256 算法来检测数据库中的相同图像。因为我们使用了很多不同的图像格式,所以我不想直接在文件上计算哈希值。相反,我想提取像素数据并计算其哈希值。
不幸的是,我遇到了很多随机冲突:68 个不具有相同字节的图像使用相同的像素提取(如下)从 6000 个图像中散列到相同的值。我觉得这是一个疯狂的碰撞次数。此外,我将我从像素数据计算的字节转储到文件中,然后尝试:
回声-n [字节转储文件] | sha256sum
这导致转储图像的哈希值不同,这让我相信我在使用 MessageDigest 时做错了什么。
这是我获取像素数据的方法:
imageBytes = new byte[4 * width * height];
for (int y = 0; y < height; y++)
{
for (int x = 0; x < width; x++)
{
// grab color information
int argb = image.getRGB(x, y);
// a,r,g,b ordered bytes per this pixel. the values are always 0-255 so the byte cast is safe
int offset = y * width;
int pushX = x * 4;
imageBytes[pushX + offset] = (byte) ((argb >> 24) & 0xff);
imageBytes[pushX + 1 + offset] = (byte) ((argb >> 16) & 0xff);
imageBytes[pushX + 2 + offset] = (byte) ((argb >> 8) & 0xff);
imageBytes[pushX + 3 + offset] = (byte) (argb & 0xff);
}
}
然后我使用 MessageDigest 类计算哈希:
MessageDigest digest = MessageDigest.getInstance("SHA-256");
digest.reset();
for (int i = 0; i < imageBytes.length; i++)
{
digest.update(imageBytes[i]);
}
String hashString = new String(encodeHex(digest.digest()));
其中 encodeHex 只是:
private static String encodeHex(byte data[])
{
StringBuilder hex = new StringBuilder(2 * data.length);
for (byte b : data)
{
hex.append(HEXES.charAt((b & 0xF0) >> 4)).append(HEXES.charAt((b & 0x0F)));
}
return hex.toString();
}