3

我在使用 JSoup 连接到 url 时遇到问题。

我要测试的网址是 www.xbox.com/en-US/security,这是一个 302(我认为)重定向到 http://www.xbox.com/en-US/Live/Account-Security。我已经设置了 jsoup 来跟踪重定向并使用 .headers("location") 获取新的 url。返回的 url 是 /en-US/Live/Account-Security。我不知道如何处理它,我的代码如下:

while (i < retries){
        try {
            response = Jsoup.connect(checkUrl)
                    .userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
                    .followRedirects(false)
                    .timeout(10000)
                    .execute();
            success = true;
            break;
        } catch (SocketTimeoutException ex){
            timeout = true;
        }  catch (MalformedURLException ep){
            malformedUrl = true;
        }catch (IOException e) {
            statusCode = 404;
        }
    }

private void getStatus(){
    if (success){
        statusCode = response.statusCode();
        success = false;
    }
    if (statusCode >= 300 && statusCode <= 399){
        //System.out.println("redirect: " +statusCode + " " +checkUrl);
        checkUrl = response.header("location");
        //System.out.println(checkUrl);
        connect();
        getStatus();
    }
}

有没有人对如何处理这个问题提出建议?或者我应该检查一下我的 checkUrl = response.header("location"); 看看它是否是一个有效的 url,如果不是,不测试它?

4

1 回答 1

6

首先要做的事情:如果您尝试访问“www.xbox.com/en-US/security”,它会向您抛出 MalformedException,因此不会将您重定向到您想要的位置。

还有一个问题是我只使用布尔变量success,如果捕获到任何异常,则将其设置为false。再说一次,我不知道您是否使用了超时或格式错误的变量。

在那之后,我会说 IOException 之后的那一行永远不会有用。我又说不出来,因为我看不到完整的代码。

现在...对于您的问题:返回的字符串是您提供的第一个 URL 中的域。它会像这样简单地进行:

//Assuming you won't ever change it, make it a final
//variable for less memory usage.
final String URL = "http://www.xbox.com/en-US/security";

//Whatever piece of processing here

//Some tests just to make sure you'll get what you're
//fetching:
String newUrl = ""
if (checkUrl.startsWith("/"))
    newUrl = URL + checkUrl;

if (checkUrl.startsWith("http://"))
    newUrl = checkUrl;

if (checkUrl.startsWith("www"))
    newUrl = "http://" + checkUrl;

这段代码基本上可以确保您可以浏览 url,而不会出现 MalformedUrlException。我建议在某处放置一个 manageUrl() 方法并测试获取的 URL 是否在您正在搜索的域中,或者您可能最终进入电子商务或公共网站。

希望它有帮助=)

于 2012-05-16T18:02:21.310 回答