0

我试图找出一种方法来获取网页中的所有超链接-除非它们位于锚标记()中。

为此,我正在使用 Jericho 解析器。

我最初的方法是区分 List<Element> elementList = source.getAllElements();and getAllElements(HTMLElementName.A),但其他元素也可能包含其中的锚链接,所以我认为这不是正确的方法。

4

1 回答 1

0

我推荐你使用Jsoup进行 Html 处理。

这是一个如何获取所有链接的示例(= a-tag with href-attribute):

Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute

for( Element element : links ) // iterate over all links (example)
{
    // process element
}

文档:

顺便提一句。你能再解释一下吗?

除非它们在锚标记中

于 2013-02-04T17:08:05.440 回答