我想从下面列出的 URL 中抓取 HTML 代码。问题是,我收到此错误:-
2016 年 8 月 14 日下午 6:40:36 booksscraper.BooksScraper 主要严重:空 org.jsoup.HttpStatusException:获取 URL 的 HTTP 错误。状态=504,URL= http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10293&langId=-1&programId=636&termId=100043741&divisionDisplayName=%20&departmentDisplayName=ACCG&courseDisplayName=16971§ionDisplayName= 20DAVIS&demoKey=d& purpose= 在 org.jsoup.helper 的 org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:540) 上浏览 org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:590)。 bookscraper.BooksScraper 的 org.jsoup.helper.HttpConnection.get(HttpConnection.java:216) 的 HttpConnection.execute(HttpConnection.java:227)。
我已将超时设置为无穷大,但这没有帮助。该网站的 HTML 代码非常庞大,即 14833 行代码。这是问题的原因吗?
String url = "http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10293&langId=-1&programId=636&termId=100043741&divisionDisplayName=%20&departmentDisplayName=ACCG&courseDisplayName=16971§ionDisplayName=P15%20DAVIS&demoKey=d&purpose=browse";
Document doc = Jsoup.connect(url)
.maxBodySize(0)
.timeout(0)
.get();
System.out.println(doc);