0

我正在使用 jsoup 获取 url 的 http 状态代码,如下所示:

Connection.Response response = null
Document doc = Jsoup.connect(url).ignoreContentType(true).get()
                    response = Jsoup.connect(url)
                            .userAgent("Mozilla/5.0 (X11  Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
                            .timeout(10000)
                            .execute()
                    int statusCode = response.statusCode()
                    if (statusCode == 200)
                        urlExists = true
                    else
                        urlExists = false

基本上,我想检查指定的 url 是否返回 200 状态代码,即它是否是一个 html 页面,它是否存在,或者它是否是一个 pdf 文件,它是否存在等等。它不适用于以 .jpg 结尾的 url,因为 jsoup 无法解析 jpg 文件。我将 jsoup 与 crawler4j 结合使用。有没有其他方法可以找到所有网址的 http 状态代码。我的网址以以下扩展名结尾:

css js pdf zip rar tar png gif html

4

1 回答 1

0

你不能只用

int responseCode = new URL(url).openConnection().responseCode
于 2014-08-27T19:37:02.737 回答