我抓取一个网站并在页面上找到这些链接:
index.html
bla.html
/index.html
A.com/test.html
http://wwww.B.com/bla.html
如果我知道当前页面是 www.A.com/some/path,我怎样才能有效地将这些链接转换为“真正的 Urls”。因此,在每种情况下,网址都应转换为:
index.html => http://www.A.com/some/path/index.html
bla.html => http://www.A.com/some/path/bla.html
/index.html => http://www.A.com/index.html
A.com/test.html => http://www.A.com/test.html
http://wwww.B.com/bla.html => http://wwww.B.com/bla.html
将这些页面链接转换为其完全限定的 url 名称的最有效方法是什么?