0

我正在抓取一个网站并保存选定的页面以供离线浏览。当然,页面之间的链接被破坏了,所以我想对此做点什么。在 python 中是否有一种简单的方法可以在不重新发明轮子的情况下将这样的 url 路径相对化:

/folder1/folder2/somepage.html    becomes---->   folder2/somepage.html
/folder1/otherpage.html           becomes---->   ../otherpage.html

我知道该函数需要两个 url 路径来确定相对路径,因为链接资源的路径是相对于它出现的页面的。

4

1 回答 1

0

较新的pathlib(仅在副本中简要提及)也适用于 url:

from pathlib import Path

abs_p = Path('https://docs.python.org/3/library/pathlib.html')
rel_p = abs_p.relative_to('https://docs.python.org/3/')
print(rel_p)  # library/pathlib.html
于 2017-05-18T08:13:34.743 回答