java - Java Jericho 超链接解析

Question

我试图找出一种方法来获取网页中的所有超链接-除非它们位于锚标记（）中。

为此，我正在使用 Jericho 解析器。

我最初的方法是区分 List<Element> elementList = source.getAllElements();and getAllElements(HTMLElementName.A)，但其他元素也可能包含其中的锚链接，所以我认为这不是正确的方法。

score 0 · Accepted Answer

我推荐你使用Jsoup进行 Html 处理。

这是一个如何获取所有链接的示例（= a-tag with href-attribute）：

Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute

for( Element element : links ) // iterate over all links (example)
{
    // process element
}

文档：

顺便提一句。你能再解释一下吗？

除非它们在锚标记中

java - Java Jericho 超链接解析

1 回答 1

Related

Reference