为了我的一生,我不能装备 HtmlUnit 来获取这个网站:
我确信这与在后台运行的大量脚本有关。也许这些脚本没有得到足够的时间来完全加载?
我也尝试过简单地抓取 bing.com/travel,但也没有成功。它破坏了新 HtmlPage 客户端的 getPage 功能。
输出给出了过多的 runtimeErrors(“完成此操作所需的数据尚不可用”),所有这些都是相同的 sourceName(“ http://www.bing.com/travel/jsxc.vjs?a=common&v=5.5 .0-1278007084280 ")
然后,在 bing.com 上的几个脚本中,由于缺少“(”而引发了几个异常。
然后它调用javascript,然后突然结束。
我意识到这可能是一些其他人可能看不到的问题,所以如果没有建议,有人会介意通过他们自己的 HtmlUnit 使用的测试实现来抽取这两个站点,看看他们是否可以获得基本输出XML 或文本结果?我不想在这里做任何花哨的事情,只是得到一些基本的文本或结果的 XML 输出。
知道其他人的实施是否有效会很方便,这样我就可以继续陪审团完成我的工作。
代码:
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.WebClient;
public class test {
public static void main(String[] args) throws Exception {
WebClient client = new WebClient();
System.out.println("webclient loaded");
HtmlPage currentPage = client.getPage("http://www.bing.com/travel/flight/flightSearch?form=FORMTRVLGENERIC&q=flights+from+SLC+to+BKK+leave+07%2F30%2F2010+return+08%2F11%2F2010+adults%3A1+class%3ACOACH&stoc=0&vo1=Salt+Lake+City%2C+UT+%28SLC%29+-+Salt+Lake+City+International+Airport&o=SLC&ve1=Bangkok%2C+Thailand+%28BKK%29+-+Suvarnabhumi+International&e=BKK&d1=07%2F30%2F2010&r1=08%2F11%2F2010&p=1&b=COACH&baf=true");
client.waitForBackgroundJavaScript(10000);
System.out.println("htmlpage init'd");
//System.out.println(currentPage.getTitleText());
String textSource = currentPage.asXml();
System.out.println(textSource);
}
}
谢谢!