0

如果我只有邮件的主题行(没有其他标题),是否有一个好的算法(或包)将它们聚集成一组“相关消息”?

带有主题的邮件

  • Our travel plans

可能与

  • Re: Our travel plans
  • Re: Re: Our travel plans.

到目前为止还不错,但也有

  • AW: Our travel plans
  • Fwd: Our travel plans
  • Our travel plans (Forward)

我想将它们全部聚集到一个线程中。plans当然,主题为,等的邮件Re: Our meeting不应出现在该线程中。我可以很好地实现分层结果——实际上,我有点喜欢那样,因为我希望具有相似内容的邮件有可能彼此“更接近”。

所以,我有很多想法:后缀匹配、前缀树、Levensthein 距离、Q-Gram 配置文件——可能太多了。因此我问自己:“有人已经这样做了吗?”

4

1 回答 1

2

对于序列比较,我使用 Open Refine(以前称为 Google Refine)来尝试聚类算法来微调和识别要使用的算法。它包括密钥冲突(指纹、ngram 和双变音素)和最近邻(levenshtein 距离和通过部分匹配(PPM)预测)。

https://github.com/OpenRefine/OpenRefine/wiki/Installation-Instructions

导入数据后,只需使用构面进行聚类。

构面 > 文本构面 > 簇

于 2013-03-02T20:25:50.597 回答