Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试进行一些网络抓取,但在加入相对 URL 和根 URL 时遇到了一些问题
例如根 url 是:http://www.jmlr.org/proceedings/papers/v2
http://www.jmlr.org/proceedings/papers/v2
相对网址是:../v2/meila07a/meila07a.pdf
../v2/meila07a/meila07a.pdf
当我在 urlparse 中使用 urljoin: 结果很奇怪:
http://www.jmlr.org/proceedings/v2/meila07a/meila07a.pdf
这不是一个有效的链接。有人可以帮我吗?
两个点 ( ..) 表示在层次结构中返回一次,将第二个链接更改为./v2/meila07a/meila07a.pdf,它应该可以正常工作。
..
./v2/meila07a/meila07a.pdf
或者您也可以将根目录更改为http://www.jmlr.org/proceedings/papers/v2/,由于此更改,它最终将不再处理,v2因为根目录未设置为正确的目录。
http://www.jmlr.org/proceedings/papers/v2/
v2