是否可以通过仅使用其某些标头来对电子邮件进行重复数据删除,因为根据 RFC,它们的消息 ID 应该是唯一的?
有没有办法计算在下面的这种重复数据删除方法中遗漏 1 封电子邮件的几率(这 3 个标头的 sha512 哈希)?
// $email is a parsed array containing 3 keys (mime headers) -> message_id, subject and date.
$hashStr = $email['message_id'];
$hashStr .= $email['subject'];
$hashStr .= $email['date'];
$uniqueEmailId = hash('sha512', $hashStr);
不会遗漏任何一封电子邮件是一项至关重要的任务,很可能我们不得不对数个(>2)十亿个 mime 文件进行重复数据删除。