我正在使用 crawler4j 来爬取网站。该网站在一些 url 的末尾有某些参数,例如http://www.abcd.com/xyz/?pqrs
当调用此类 url 的 shouldVisit() 方法时,我得到的 webURL 为 http://www.abcd.com/xyz/?pqrs但是当调用同一 url 上的访问方法时,我得到的 URL 为http:// www.abcd.com/xyz/。
最后如何访问带有某些参数的页面?
我正在使用 crawler4j 来爬取网站。该网站在一些 url 的末尾有某些参数,例如http://www.abcd.com/xyz/?pqrs
当调用此类 url 的 shouldVisit() 方法时,我得到的 webURL 为 http://www.abcd.com/xyz/?pqrs但是当调用同一 url 上的访问方法时,我得到的 URL 为http:// www.abcd.com/xyz/。
最后如何访问带有某些参数的页面?
Crawl4j 默认会访问带有此类参数的页面。
你的意思是你不能在访问方法中获取带参数的url?
看下面的代码,url 有字符串http://www.abcd.com/xyz/?pqrs和 parentUrl 有http://www.abcd.com/xyz/
@Override
public void visit(Page page) {
String url = page.getWebURL().getURL();
String parentUrl = page.getWebURL().getParentUrl();
}
希望我的回答可以帮到你。