给定页面的绝对 url,以及在该页面中找到的相对链接,是否有办法a)明确重建或b)尽力重建相对链接的绝对 url?
就我而言,我正在使用漂亮的汤从给定的 url 读取 html 文件,剥离所有 img 标记源,并尝试构建页面图像的绝对 url 列表。
到目前为止,我的 Python 函数如下所示:
function get_image_url(page_url,image_src):
from urlparse import urlparse
# parsed = urlparse('http://user:pass@NetLoc:80/path;parameters?query=argument#fragment')
parsed = urlparse(page_url)
url_base = parsed.netloc
url_path = parsed.path
if src.find('http') == 0:
# It's an absolute URL, do nothing.
pass
elif src.find('/') == 0:
# If it's a root URL, append it to the base URL:
src = 'http://' + url_base + src
else:
# If it's a relative URL, ?
注意:不需要 Python 答案,只需要所需的逻辑。