如何使用 wget 来抓取网页中特定标签之间的文本?搜索似乎没有发现任何特定于 wget 的内容。提前致谢。
问问题
570 次
2 回答
2
这是 curl 非常有用的事情。
快速未经测试的哈克:
curl $url | grep $tag | sed -r 's/.*$tag([^<]+).*/\1/'
于 2013-09-06T21:36:39.953 回答
0
使用 wget 下载文件,然后使用 grep 或正则表达式 (sed) 或某种外部 HTML 解析器(那里有很多很多)搜索它。Wget 本身无法做到这一点。
我会建议 XMLStarlet 或 Xidel。
西德尔:
xidel http://website.com -e "css('a')"
并且只需使用 CSS 选择器来选择特定的标签(将选择器放在css('{selectors here}')
.
于 2013-09-06T21:41:40.640 回答