我是 java 新手,使用 jaunt1.3.8 库进行网络抓取。我正在尝试获取网页的 InnerHTML:https ://www.justdial.com/Pune/Cake-Shops/nct-10070075 。
该网站不会向我们显示完整的搜索结果列表。当我们到达页面底部时,它将再次加载。
滚动 10 次后它将停止加载。
我想使用 jaunt1.3.8 库来废弃这个动态加载网页的数据,但我不知道该怎么做。
这是您的第一页:https ://www.justdial.com/Pune/Cake-Shops/nct-10070075/page-1
PagniaE = " https://www.justdial.com/Pune/Cake-Shops/nct-10070075/page-1 ";
做一个循环:
while (IniPag<=100) {
userAgent.visit(PaginaE);
// (do someting)...
PaginaE = PaginaE.replace("page1","page2"); //Dynamic
}