在从相对 URL 构造绝对 URL 时,有没有办法解决“无效”父目录,或者我应该只使用.replace()
?
>>> from urlparse import urljoin
>>> url = urljoin('http://www.example.com/path/', '../../../index.html')
>>> url
'http://www.example.com/../../index.html'
>>> url.replace('../', '')
'http://www.example.com/index.html'
更好的是,在 Python 中进行抓取时,是否有一种更清洁的方法来清理 url?