我正在使用 jsoup 获取 url 的 http 状态代码,如下所示:
Connection.Response response = null
Document doc = Jsoup.connect(url).ignoreContentType(true).get()
response = Jsoup.connect(url)
.userAgent("Mozilla/5.0 (X11 Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
.timeout(10000)
.execute()
int statusCode = response.statusCode()
if (statusCode == 200)
urlExists = true
else
urlExists = false
基本上,我想检查指定的 url 是否返回 200 状态代码,即它是否是一个 html 页面,它是否存在,或者它是否是一个 pdf 文件,它是否存在等等。它不适用于以 .jpg 结尾的 url,因为 jsoup 无法解析 jpg 文件。我将 jsoup 与 crawler4j 结合使用。有没有其他方法可以找到所有网址的 http 状态代码。我的网址以以下扩展名结尾:
css js pdf zip rar tar png gif html