我正在使用 HtmlUnit 2.10。我正在为网站创建一个小型链接验证器。对于爬行,我正在使用它。在我的研究期间,我试图爬行:loans.xxxxxxx.com
。它有 58 个锚标签和 5 个链接标签。
我正在写这样的代码
List<HtmlElement> elementsOfPage = (List<HtmlElement>) htmlPage.getElementsByTagName("link");
Iterator<HtmlElement> it = elementsOfPage.iterator();
System.out.println(elementsOfPage.size());
while(it.hasNext()) {
HtmlElement htmlElement = it.next();
System.out.println(htmlElement.toString());
}
我也对锚标记执行相同的程序,即对于链接,它只显示 3,而对于锚,它只显示 56,即使分别有 5 个和 58 个。
代码中有一些被注释的部分,我认为 Web 客户端会忽略它,但如果你实际打印它会显示一些结果实际上来自注释代码。
// 在运行 webclient 之前,我禁用了 applet、css、javascripts 并将超时时间增加到 7 秒。
为什么这种行为很奇怪?