我正在尝试汇总我网站的推荐人的统计信息,以便简单地显示顶级推荐人。不幸的是,推荐人数据是不可信的,而且通常很脏,所以我只是试图善意地尝试获得可用数据之类的东西。
我已经过滤了错误的 url,并使用 url_parts 来获取每个 url 的主机部分。然后,我剥离了常见的别名子域和社交媒体 url-shorteners,如 t.co 或 fb.me
剩下的大问题是网络邮件。许多网络邮件提供商在用户登录后立即将其分流到子域,以实现负载平衡。这很容易过滤,对于像 yahoo 这样的邮件服务,因为它们都是 something.something.mail.yahoo.com,所以我可以检查最后一个段的第三个是否是“邮件”或类似的子域,并删除所有以前的段。
但现在我只剩下困难的情况了,子域如下:
webmaila (like webmaila.juno.com)
email16 (like email16.secureserver.net)
webmailb (like webmailb.netzero.net)
我需要找到以“mail”、“webmail”、“email”或“mailbox”开头的条目,后跟任何字符串,然后去掉字符串,只留下适当的前缀。
我怎样才能做到这一点?