-1

我有一个文件,其中包含搜索后得到的谷歌页面。我用了

w3m -no-cookie $search > google

制作页面

之后我需要获取该页面中包含的所有网站,所以基本上所有以“www”开头并以“/”结尾的字符串

我试过了 :

grep -Fw "www" google | awk -F "/" '{ print $1";" }'

但它给了我在 www 之前上线的一切

我该如何删除它?

我应该使用 sed 吗?

谢谢!

4

1 回答 1

3

假设所有网站都以开头www有点奇怪,但这里是:

您的问题是 grep 将返回整行。使用-o它只会返回匹配的部分:

grep -wo "www.*" google | awk -F "/" '{ print $1";" }'

或者简单地说:

grep -wo "www[^/]*" google
于 2012-08-04T17:19:30.623 回答