我想从网页源中找到链接的绝对路径。
例如在网页源代码中,有这样一行:
href="lectures/lecture04.pdf"
但是这个的绝对路径是
www.abc.com/courses/cs101/lectures/lecture04.pdf
有没有办法在 bash shell 中获取这条路径?
尝试:
$ wget --convert-links URL
从wget
手册中,开关--convert-links
描述如下:
Wget 尚未下载的文件的链接将更改为包括主机名和它们指向的位置的绝对路径。
示例:如果下载的文件 /foo/doc.html 链接到 /bar/img.gif(或 ../bar/img.gif),则 doc.html 中的链接将被修改为指向
http://hostname/bar/img.gif
.