wget - 如何使用 wget 来抓取网页中特定标签之间的文本？

Question

如何使用 wget 来抓取网页中特定标签之间的文本？搜索似乎没有发现任何特定于 wget 的内容。提前致谢。

score 2 · Accepted Answer

这是 curl 非常有用的事情。

快速未经测试的哈克：

curl $url | grep $tag | sed -r 's/.*$tag([^<]+).*/\1/'

score 0 · Accepted Answer

使用 wget 下载文件，然后使用 grep 或正则表达式 (sed) 或某种外部 HTML 解析器（那里有很多很多）搜索它。Wget 本身无法做到这一点。

我会建议 XMLStarlet 或 Xidel。

西德尔：

xidel http://website.com  -e "css('a')"

并且只需使用 CSS 选择器来选择特定的标签（将选择器放在css('{selectors here}').

2 回答 2