java - 使用 htmlparser 解析网站时无法获取所有匹配的节点

Question

我正在使用 htmlparser 解析网站，但我陷入了一个非常奇怪的问题。我正在尝试获取<li>网页上的所有节点，我的代码如下：

String url = "http://s.1688.com/selloffer/offer_search.htm?keywords=%BD%A8%B2%C4&n=y&categoryId=";
Parser parser = new Parser(url);
parser.setEncoding("gb2312");

NodeList list = parser.extractAllNodesThatMatch(new TagNameFilter("li"));
// NodeList list = parser.parse(new CssSelectorNodeFilter("li[class=\"sm-offerShopwindow\"]"));
System.out.print(list.size() + "\n");
for (int i = 0; i < list.size(); i++) {
Node li = list.elementAt(i);
System.out.print("text:" + li.getText() + "\n");
}

但是列表大小的输出始终为 20。似乎它并没有遍历该页面上的所有节点。为什么？感谢您的任何建议。

score 0 · Accepted Answer

即使是周围的顶级浏览器也并不总是就如何解析所有伪装成 HTML 的奇怪东西达成一致，而且自 2006 年以来，网络已经非常发达。所以，如果这样一个旧软件无法应对现代，我不会感到惊讶HTML。

java - 使用 htmlparser 解析网站时无法获取所有匹配的节点

1 回答 1

Related

Reference