我目前是基于每个用户(电子邮件帐户)的重复数据删除电子邮件。我正在创建一个包含多个标头(消息 ID、主题、发件人、日期、收件人)的 sha512 哈希。之后,我将完整的电子邮件(mime 字符串)存储在一个文件中,并在 Elasticsearch 中将元数据(主题、发件人、发件人、收件人、cc ...)与“userID”字段相结合。
这在每个用户的基础上都可以正常工作,但我可以通过在全球范围内对它们进行重复数据删除来大大降低存储成本。问题是有时当 UserA 和 UserB 都收到相同的消息时,某些标头可能会不同。并且像发件人本身的标头也不同。
非常感谢任何有关如何创建它的提示。
PS 1 解决方案是保存不带标题的 MIME 文件并保存每个用户分开的标题。因此,为了获取 userA 的完整电子邮件,我将 MIME 文件与链接到 userA 的文件的标题相结合。但是这个解决方案对我来说似乎有点低效?