0

如何使用 jsoup 从网页上的所有段落中提取完整的 URL?我只能提取相对 URL。

预期的: http://fr.wikipedia.org/wiki/Husni_al-Zaim

实际的: /Husni_al-Zaim

我的代码:

    Elements links = doc.select("p");
    Elements linkss = links.select("a");

    for (Element link : linkss) {
        if (link.text().matches("^[A-Z].+") == true) {
            list.add(new NamedLink(link.attr("href"), link.text()));
        }
    }
4

1 回答 1

1

使用.absUrl("href")而不是.attr("href"). 这仅在您从网页获取文档或从磁盘解析完整文件时才有效(因此不要像在您的示例中那样将部分从 HTML 按摩到文本并返回)。

Document document = Jsoup.connect("http://stackoverflow.com").get();
Elements paragraphLinks = document.select("p a");
for (Element paragraphLink : paragraphLinks) {
    String absUrl = paragraphLink.absUrl("href");
    // ...
}
于 2011-03-26T13:46:06.977 回答