0

我正在尝试从 Yahoo 解析此页面,可以尝试获取所有问题的 url。

我用的是jsoup,但是这些选择器什么都不选,为什么?

doc.select("#yan-questions h3 a")
doc.select(".question-title a")
4

1 回答 1

1

我现在找到原因了。这是因为那个站点可能会根据不同的用户代理发送不同的网页,而当我没有包含User-AgentHTTP头时,响应将没有一些ids。

当我将此行添加到 HTTP 请求时,此问题得到解决:

User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101
于 2013-10-31T05:40:23.053 回答