0

我正在尝试汇总我网站的推荐人的统计信息,以便简单地显示顶级推荐人。不幸的是,推荐人数据是不可信的,而且通常很脏,所以我只是试图善意地尝试获得可用数据之类的东西。

我已经过滤了错误的 url,并使用 url_parts 来获取每个 url 的主机部分。然后,我剥离了常见的别名子域和社交媒体 url-shorteners,如 t.co 或 fb.me

剩下的大问题是网络邮件。许多网络邮件提供商在用户登录后立即将其分流到子域,以实现负载平衡。这很容易过滤,对于像 yahoo 这样的邮件服务,因为它们都是 something.something.mail.yahoo.com,所以我可以检查最后一个段的第三个是否是“邮件”或类似的子域,并删除所有以前的段。

但现在我只剩下困难的情况了,子域如下:

webmaila (like webmaila.juno.com)
email16  (like email16.secureserver.net)
webmailb (like webmailb.netzero.net)

我需要找到以“mail”、“webmail”、“email”或“mailbox”开头的条目,后跟任何字符串,然后去掉字符串,只留下适当的前缀。

我怎样才能做到这一点?

4

1 回答 1

0
echo preg_replace('#^(webmaila|email16|webmailb)(.+)?#', '$1', $string);
于 2013-11-07T17:54:00.587 回答