如果我只有邮件的主题行(没有其他标题),是否有一个好的算法(或包)将它们聚集成一组“相关消息”?
带有主题的邮件
Our travel plans
可能与
Re: Our travel plans
和Re: Re: Our travel plans
.
到目前为止还不错,但也有
AW: Our travel plans
Fwd: Our travel plans
Our travel plans (Forward)
我想将它们全部聚集到一个线程中。plans
当然,主题为,等的邮件Re: Our meeting
不应出现在该线程中。我可以很好地实现分层结果——实际上,我有点喜欢那样,因为我希望具有相似内容的邮件有可能彼此“更接近”。
所以,我有很多想法:后缀匹配、前缀树、Levensthein 距离、Q-Gram 配置文件——可能太多了。因此我问自己:“有人已经这样做了吗?”