0

我已经解析了一个网页的外链,我将使用 Jsoup 再次解析它。但问题是,链接的形式是:../../../pincode/india/andaman-and-nicobar- islands/. 在这种形式下,我无法解析它们。所以我link.attr("abs:href")在stackoverflow的其他帖子的帮助下转换为绝对url。

我解析的第一个网页的网址是:http://www.mapsofindia.com/pincode/india/. 我解析后得到的绝对网址是http://www.mapsofindia.com/../pincode/india/andaman-and-nicobar-islands/. 但我无法使用 Jsoup 进一步解析它们。因此,当我执行以下语句时:

Jsoup.parse("http://www.mapsofindia.com/../pincode/india/andaman-and-nicobar-islands/");

它给出 HTTP 400 错误,即错误请求。所以我认为网址有问题。所以任何人都可以帮我解决上述问题,以正确的方式获取网址,以便我可以进一步解析它们。谢谢你。

4

1 回答 1

1

请测试这两件事:

  1. 尝试使用link.absUrl("href")而不是link.attr("abs:href")
  2. 检查基本 uri(调用baseUri()您的元素或文档)

顺便提一句。你最好connect()对这件事使用方法:

Document doc = Jsoup.connect("http://<your url here>").get();
于 2013-04-13T17:22:05.627 回答