1

具体来说,这是与网站 amazon.com 相关的。我收到他们域的 503 错误,但我可以成功解析其他域。

我正在使用这条线

Document doc = Jsoup.connect(url).timeout(30000).get();

连接到 URL。

4

2 回答 2

3

You have to set a User Agent:

Document doc = Jsoup.connect(url).timeout(30000).userAgent("Mozilla/17.0").get();

(Or others; best you choose a browser user agent)

Else you'll get blocked.

Please see also: Jsoup: select(div[class=rslt prod]) returns null when it shouldn't

于 2013-06-10T19:18:17.303 回答
0

你可以试试

val ret=Jsoup.connect(url)
  .userAgent("Mozilla/5.0 Chrome/26.0.1410.64 Safari/537.31")
  .timeout(2*1000)
  .followRedirects(true)
  .maxBodySize(1024*1024*3)    //3Mb Max
  //.ignoreContentType(true) //for download xml, json, etc
  .get()

它可能有效,也许 amazon.com 需要将 followRedirects 设置为 true。

于 2013-06-12T15:52:27.870 回答