我们有一个内部 .NET 案例管理应用程序,可以自动从电子邮件创建一个新案例。我希望能够识别与原始电子邮件相关的其他电子邮件,以便我们可以防止创建重复案例。
我观察到许多(但不是全部)电子邮件都有一个看起来很有用的线程索引标题。
有人知道我们可以使用的简单算法或包吗?
我们有一个内部 .NET 案例管理应用程序,可以自动从电子邮件创建一个新案例。我希望能够识别与原始电子邮件相关的其他电子邮件,以便我们可以防止创建重复案例。
我观察到许多(但不是全部)电子邮件都有一个看起来很有用的线程索引标题。
有人知道我们可以使用的简单算法或包吗?
据我所知,不会有 100% 万无一失的解决方案,因为并非所有电子邮件客户端或网关都保留或尊重所有标头。
但是,您将通过以下方式获得相当高的命中率:
每封电子邮件都应该有一个唯一的“Message-ID”字段。找到这个,并将其作为案例的一部分记录下来。(见RFC-822)
如果您收到两条消息 ID 相同的消息,请丢弃第二条消息,因为它是重复的。
检查“In-Reply-To”字段,如果显示的 ID 与已知的 Message-ID 匹配,则您知道该电子邮件是相关的。
“References”和“Original-Message-ID”标头具有相似的含义。
如果您的系统曾经生成电子邮件,请在主题行中包含 CaseID#,以便您在收到电子邮件时搜索它(例如:[Case#20081114-01]);大多数人在回复时不会编辑主题行。
互联网标准RFC-822、RFC-2076和RFC-4021可能有助于进一步阅读。
鉴于总会有遗漏的消息(无论出于何种原因),您可能还需要案例管理系统中的相关功能 - 例如,“作为重复案例关闭”或“与重复案例合并”,以及用于使查找重复项更容易。
使用JWZ 线程算法。