我想将我所有的历史电子邮件和新闻存储和索引为单独的消息文件,使用一些基于消息正文+标题的计算哈希码。然后,我还将索引其他内容——用于搜索。
对于主索引键,我的想法是使用 SHA-1 作为哈希算法并假设永远不会发生任何冲突(尽管我知道理论上可能存在)。
除了正文,我应该索引哪些标题?或者更一般地说,我应该在散列之前对消息的内存副本应用哪些转换?
我应该忽略“ReSent-*:”标题吗?我应该将断行的标题加入单行标题并删除无关的空格吗?
(我想基于某个头而不是 Message-ID 标头来索引消息的原因是因为 Message-ID 标头的格式不统一。)