Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个文件,其中包含搜索后得到的谷歌页面。我用了
w3m -no-cookie $search > google
制作页面
之后我需要获取该页面中包含的所有网站,所以基本上所有以“www”开头并以“/”结尾的字符串
我试过了 :
grep -Fw "www" google | awk -F "/" '{ print $1";" }'
但它给了我在 www 之前上线的一切
我该如何删除它?
我应该使用 sed 吗?
谢谢!
假设所有网站都以开头www有点奇怪,但这里是:
www
您的问题是 grep 将返回整行。使用-o它只会返回匹配的部分:
-o
grep -wo "www.*" google | awk -F "/" '{ print $1";" }'
或者简单地说:
grep -wo "www[^/]*" google