0

如何使用 wget 来抓取网页中特定标签之间的文本?搜索似乎没有发现任何特定于 wget 的内容。提前致谢。

4

2 回答 2

2

这是 curl 非常有用的事情。

快速未经测试的哈克:

curl $url | grep $tag | sed -r 's/.*$tag([^<]+).*/\1/'
于 2013-09-06T21:36:39.953 回答
0

使用 wget 下载文件,然后使用 grep 或正则表达式 (sed) 或某种外部 HTML 解析器(那里有很多很多)搜索它。Wget 本身无法做到这一点。

我会建议 XMLStarlet 或 Xidel。

西德尔:

xidel http://website.com  -e "css('a')"

并且只需使用 CSS 选择器来选择特定的标签(将选择器放在css('{selectors here}').

于 2013-09-06T21:41:40.640 回答