-1

我有大约 1000 个 URL,任务是计算它们的出现次数并打印最高频率。当单篇文章有多个 URL 时会出现此问题。下面的例子:

http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=twitterfeed
http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=feed&utm_source=feedburner
http://mashable.com/2013/06/05/whistle/?utm_campaign=Mash-Product-RSS-Pheedo-All-Partial&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=dlvr.it

所有这些都指向同一篇文章,但是,它们的不同之处在于一些第三方跟踪变量。我可以使用 RegExp 消除追随者,但可能有无限的变体。另外,我不能删除整个查询字符串,因为它可能包含真正的变量(即show.php?p=12

utm_campaign
utm_cid
utm_medium
utm_source

问题: 是否有这些变量的完整列表?你过去有没有用更好的方法做到这一点?

4

1 回答 1

0

也使用正则表达式

  [?&](.*?)= 

在 url 中,每个变量都以 '?' 开头 或 '&' 并且必须以 '=' 结尾

于 2013-06-06T08:51:31.443 回答