我需要在 java 中找到 URL 的 HTTP 响应代码。我知道这可以使用 URL 和 HTTPURLConnection API 来完成,并且已经解决了之前的问题,例如this 和this。
我需要在大约 2000 个链接上执行此操作,因此速度是最需要的属性,其中我已经使用crawler4j抓取了 150-250 个页面并且不知道从该库获取代码的方法(因此我将不得不在这些链接上再次与另一个库建立连接以查找响应代码)。
在 Crawler4J 中,WebCrawler 类有一个方法 handlePageStatusCode,这正是您要查找的内容,如果您已经查找过,您也会找到。覆盖它并快乐。
第一个链接背后的答案包含您需要的一切: 如何在 Java 中获取 URL 的 HTTP 响应代码?
URL url = new URL("http://google.com");
HttpURLConnection connection = (HttpURLConnection)url.openConnection();
connection.setRequestMethod("GET");
connection.connect();
int code = connection.getResponseCode();
响应码是服务器返回的 HTTP 码。