我试图找出一种方法来获取网页中的所有超链接-除非它们位于锚标记()中。
为此,我正在使用 Jericho 解析器。
我最初的方法是区分
List<Element> elementList = source.getAllElements();
and
getAllElements(HTMLElementName.A)
,但其他元素也可能包含其中的锚链接,所以我认为这不是正确的方法。
我试图找出一种方法来获取网页中的所有超链接-除非它们位于锚标记()中。
为此,我正在使用 Jericho 解析器。
我最初的方法是区分
List<Element> elementList = source.getAllElements();
and
getAllElements(HTMLElementName.A)
,但其他元素也可能包含其中的锚链接,所以我认为这不是正确的方法。
我推荐你使用Jsoup进行 Html 处理。
这是一个如何获取所有链接的示例(= a
-tag with href
-attribute):
Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute
for( Element element : links ) // iterate over all links (example)
{
// process element
}
文档:
顺便提一句。你能再解释一下吗?
除非它们在锚标记中