我正在尝试进行一些网络爬虫,但遇到了何时添加斜杠的问题。我知道有些网站最后确实有它,而有些则没有,但在浏览器中输入错误的网站只会将您重定向到正确的网站。规范化会在末尾添加斜杠,但在尝试将相对 URL 转换为绝对 URL 时会导致问题。
例如,如果用户选择了绝对 URL http://stack.com/more
,但实际(重定向)URL 是http://stack.com/more/
,而相对 URL 是index.html
然后做URL newurl = new URL(url, relativeURL);
产量http://stack.com/index.html
(不存在的页面)
什么时候应该是http://stack.com/more/index.html
(真实页面)
有谁知道在末尾正确附加斜线的好方法?