http - 使用 jsoup 检查 jpg 文件的 HTTP 状态

Question

我正在使用 jsoup 获取 url 的 http 状态代码，如下所示：

Connection.Response response = null
Document doc = Jsoup.connect(url).ignoreContentType(true).get()
                    response = Jsoup.connect(url)
                            .userAgent("Mozilla/5.0 (X11  Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
                            .timeout(10000)
                            .execute()
                    int statusCode = response.statusCode()
                    if (statusCode == 200)
                        urlExists = true
                    else
                        urlExists = false

基本上，我想检查指定的 url 是否返回 200 状态代码，即它是否是一个 html 页面，它是否存在，或者它是否是一个 pdf 文件，它是否存在等等。它不适用于以 .jpg 结尾的 url，因为 jsoup 无法解析 jpg 文件。我将 jsoup 与 crawler4j 结合使用。有没有其他方法可以找到所有网址的 http 状态代码。我的网址以以下扩展名结尾：

css js pdf zip rar tar png gif html

score 0 · Accepted Answer

0

你不能只用

int responseCode = new URL(url).openConnection().responseCode

于 2014-08-27T19:37:02.737 回答

http - 使用 jsoup 检查 jpg 文件的 HTTP 状态

1 回答 1

Related

Reference