我仍在处理这个庞大的 URL 列表,我收到的所有帮助都很棒。
目前我的列表看起来像这样(虽然有 17000 个 URL):
http://www.example.com/page?CONTENT\_ITEM\_ID=1
http://www.example.com/page?CONTENT\_ITEM\_ID=3
http://www.example.com/page?内容\_ITEM\_ID=2
http://www.example.com/page?CONTENT\_ITEM\_ID=1
http://www.example.com/page?CONTENT\_ITEM\_ID=2
http://www .example.com/page?CONTENT\_ITEM\_ID=3
http://www.example.com/page?CONTENT\_ITEM\_ID=3
我可以用几种方法过滤掉重复项没问题,awk 等。我真正想做的是取出重复的 URL,但同时计算 URL 在列表中存在的次数并打印带有管道分隔符的 URL 旁边的计数。处理完列表后,它应该如下所示:
网址 | 数数
http://www.example.com/page?CONTENT\_ITEM\_ID=1 | 2
http://www.example.com/page?CONTENT\_ITEM\_ID=2 | 2
http://www.example.com/page?CONTENT\_ITEM\_ID=3 | 3
什么方法是实现这一目标的最快方法?