python - Python - 在可能重写 url 时确定正确的基本 url

Question

我通常查找完整网址的方法是：

resp = urllib.request.urlopen('http://www.example.com')
base_url = resp.geturl()
# find the wanted (relative) url in the resp by using BeautifulSoup4
full_url = urljoin(base_url, relative_url)

但是，对于某些网站，例如http://www.titanquest.net/tq-forum/forums/72-Underlord， base_url 和 full_url 是错误的，因为 url 被重写（我假设）如下所示：

>>> full_url
'http://www.titanquest.net/tq-forum/forums/72-Underlord'
>>> relative_url
'threads/43456-Epic-items?s=26260c54fd856499bff7a57e3c7ceb94'
>>> urljoin(full_url, relative_url)
'http://www.titanquest.net/tq-forum/forums/threads/43456-Epic-items?s=26260c54fd856499bff7a57e3c7ceb94'

正确的网址应该是：

http://www.titanquest.net/tq-forum/threads/43456-Epic-items?s=26260c54fd856499bff7a57e3c7ceb94

我的问题是如何生成正确的 base_url 和 full_url。

score 2 · Accepted Answer

您的浏览器通常确实使用当前页面的位置作为相对 URL 的基础，并且您的使用urljoin正确地模拟了该行为。

但是，如果返回的 HTML 包含一个<base />tag，浏览器将使用该 tag 命名的 url 作为解析相对 URL 的基础。<base />标签是 HTML 头部的一部分。

您需要解析的响应http://www.titanquest.net/tq-forum/forums/72-Underlord以确定是否存在这样的标签，然后使用其值而不是页面的 URL 来确定相对 URL。<base href="link" />链接值本身可能是相对的，在这种情况下，您必须首先根据文档位置将其设为绝对值。

在这种特殊情况下，网页包含这样一个<base />标签：

<base href="http://www.titanquest.net/tq-forum/" /><!--[if IE]></base><![endif]-->

python - Python - 在可能重写 url 时确定正确的基本 url

1 回答 1

Related

Reference