我正在下载我的电子邮件主题行的长列表,目的是找到我多年前加入的电子邮件列表,并希望从我的 Gmail 帐户中清除它们(这变得非常缓慢。)
我特别考虑经常来自同一地址的通讯,并在主题中重复产品/服务/组的名称。
我知道我可以按来自特定电子邮件地址的常见项目进行搜索/排序(我打算这样做),但我想将这些数据与重复的主题行关联起来......
现在,许多主题行将无法匹配字符串,但“Google Friends : Our latest news”“Google Friends : What we are today”比随机主题行更相似,例如:“Virgin Airlines has今天大减价” “搭乘维珍航空的航班”
那么 - 我怎样才能开始自动提取可能更相似的字符串的趋势/示例。
我考虑过并放弃的方法(“因为必须有更好的方法”):
- 提取所有可能的子字符串并按照它们出现的频率对其进行排序,并手动选择相关的子字符串
- 剥离第一个或两个单词,然后计算每个子字符串的出现次数
- 比较条目之间的 Levenshtein 距离
- 某种字符串相似度索引...
其中大多数因效率低下或可能需要大量人工干预而被拒绝。我想我需要某种模糊字符串匹配..?
最后,我可以想出一些笨拙的方法来做这件事,但我正在寻找更通用的东西,所以我已经添加到我的工具集中,而不是这个数据集的特殊外壳。
在此之后,我会将特定主题字符串的出现与“发件人”地址进行匹配 - 我不确定是否有一种构建数据结构的好方法,该数据结构表示两条消息是“同一电子邮件”的一部分的可能性有多大列表”或通过将我所有的电子邮件主题/地址过滤到可能的“相关”电子邮件池中,而不是 - 但这是在此之后要解决的问题。
任何指导将不胜感激。