2

我正在使用以下命令来提取包含 .com 扩展名并且可能包含 .us 或任何国家/地区扩展名的不同 url。

 grep '\.com' source.txt -m 700 | uniq | sed -e 's/www.//' 
> dest.txt

问题是,它在同一个域中提取 url,这是我不想要的。例如:abc.yahoo.com efg.yahoo.com

我只需要yahoo.com。如何使用 grep 或任何其他命令仅提取不同的域名?

4

3 回答 3

0

也许是这样的?

egrep -io '[a-z0-9\-]+\.[a-z]{2,3}(\.[a-z]{2})?' source.txt
于 2012-07-29T19:13:09.857 回答
0

您是否尝试过使用 awk in 而不是 sed 并指定“。” 作为分隔符,只打印最后两个字段。

awk -F "." '{ print $(NF-1)"."$NF }'
于 2012-07-29T19:13:23.773 回答
0

也许这样的事情应该有所帮助:

egrep -o '[^.]*.com' file
于 2012-07-29T19:13:24.863 回答