我想从 html 中提取链接,使用 jsoup
预期输出:绝对链接。
我为此使用“abs:href”。
这有效:
Jsoup.parse("<a \n\r\t href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
交付:http ://www.ibm.com/123/?id=abc
这不起作用:
Jsoup.parse("<a \n\r\t href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
交付:http ://www.ibm.com/www.ibm.com/123/?id=abc
我知道很难知道“www.ibm.com”是绝对链接还是相对链接。它可能是顶级域,但也可能是文件夹名称。任何经过验证的解决方案?我想到了这个黑客:
String domain = url.replace("http://", "");
url.replace(domain + domain, domain);