0

我是 java 新手,使用 jaunt1.3.8 库进行网络抓取。我正在尝试获取网页的 InnerHTML:https ://www.justdial.com/Pune/Cake-Shops/nct-10070075 。

该网站不会向我们显示完整的搜索结果列表。当我们到达页面底部时,它将再次加载。

滚动 10 次后它将停止加载。

我想使用 jaunt1.3.8 库来废弃这个动态加载网页的数据,但我不知道该怎么做。

4

1 回答 1

0

这是您的第一页:https ://www.justdial.com/Pune/Cake-Shops/nct-10070075/page-1

PagniaE = " https://www.justdial.com/Pune/Cake-Shops/nct-10070075/page-1 ";

做一个循环:

while (IniPag<=100) {
  userAgent.visit(PaginaE);
  // (do someting)...
  PaginaE = PaginaE.replace("page1","page2"); //Dynamic
}
于 2018-03-21T17:17:36.207 回答