3

我想使用 Jsoup 从 http://ws.audioscrobbler.com/2.0/?method=track.getInfo&api_key=550633c179112c8002bc6a0942d55b2a&artist=lucinda%20williams&track=lake%20charles抓取内容

代码是:

    Document doc = Jsoup.connect("http://ws.audioscrobbler.com    /2.0/?method=track.getInfo&api_key=550633c179112c8002bc6a0942d55b2a&artist=lucinda williams&track=lake charles")
                        .userAgent("Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:20.0) Gecko/20100101 Firefox/20.0")
                        .timeout(5000)
                        .get();

但是,发生了一些错误:

    Exception in thread "main" java.net.SocketException: Unexpected end of file from server
            at sun.net.www.http.HttpClient.parseHTTPHeader(HttpClient.java:770)
            at sun.net.www.http.HttpClient.parseHTTP(HttpClient.java:633)
            at sun.net.www.http.HttpClient.parseHTTPHeader(HttpClient.java:767)
            at sun.net.www.http.HttpClient.parseHTTP(HttpClient.java:633)
            at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1162)
            at java.net.HttpURLConnection.getResponseCode(HttpURLConnection.java:397)
            at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:429)
            at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:410)
            at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:164)
            at org.jsoup.helper.HttpConnection.get(HttpConnection.java:153)
            at JsoupXML.main(JsoupXML.java:16)

但是,当我使用 brwoser 访问 url 时,一切都可以。此外,当我使用上面的代码来抓取http://ws.audioscrobbler.com/2.0/?method=track.getInfo&api_key=550633c179112c8002bc6a0942d55b2a&artist=cher&track=believe的内容时,一切都很好。

你能知道原因和解决它的好主意吗?

感谢您的关注,并对我的英语感到抱歉。

感谢 NeplatnyUdaj 的帮助,你给了我很好的提示。我忘了用 %20,%26 等替换空格和其他特殊符号。

4

2 回答 2

3

出色地。异常意味着远程服务器意外关闭了连接。

下面的答案假设问题代码 URL 中可见的所有空格实际上并不存在于您的代码中。

除了捕获异常并重试(或向用户报告错误)之外,您实际上无能为力。

至于为什么服务器关闭了连接:

  • 它不喜欢您的请求(重试在这里没有帮助),请查看 audioscrobbler 的文档
    • 主机头在那里并且正确(在你的例子中它是不正确的,因为你在那里有空格)?
    • 您是否必须包含其他标头才能发出有效请求?
    • 该 API 密钥是否正确?
  • 服务器当前可能有问题(导致它丢弃请求,这是重试可能有帮助的地方)
  • 它认为您对它提出了太多问题,并且已经使用了一些反垃圾邮件保护(这是重试会受到伤害的地方)。

在相关说明中:在问题中包含 API 密钥可能不是最佳的。

于 2013-06-24T12:04:07.783 回答
1

Change the user agent (or at least define it).

More details: Scraping a site

于 2013-06-24T11:53:21.937 回答