如果我尝试从该域中检索 URL 的 Document.baseUri() -
http://www.deliciousmagazine.co.uk/articles/mid-week-meals
它返回http://www.deliciousmagazine.co.uk。
对于其他 URL,Document.baseUri() 返回整个 URL。
例如
https://stackoverflow.com/about
将返回
https://stackoverflow.com/about。
我注意到的唯一一件事是 HTML 响应返回带有以下信息的标记。
<base href="http://www.deliciousmagazine.co.uk/" />
这是我能想到的唯一导致此问题的原因。即使这个元素存在,如果我想要整个 URL 怎么办?我可以在 Document 上调用什么方法来检索它?
示例代码
Document doc = null;
try {
doc = Jsoup.connect(url).userAgent("Mozilla").get();
} catch (IOException e) {
e.printStackTrace();
}
System.out.println(doc.baseUri());