0

我的问题是,当我使用 jsoup lib 解析特定的 url 时,它一直很棒,直到有一天我的解析损坏了,返回的文档有一些标签,这些标签与旧文档不同,它有名为 meta 标签“机器人”。

响应中的标头示例:

<head>
  <meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
  <meta name="format-detection" content="telephone=no" />
  <meta name="viewport" content="initial-scale=1.0" />
</head>

我的问题是,你认为我怎样才能克服这个障碍?尝试使用其他几个解析 javascript 的库,但它没有帮助并且结果相同,也许我没有正确使用它。

(我了解到元标记机器人是为了防止机器人,最初是为搜索引擎设计的,我怎样才能绕过这种行为?我怎样才能像普通的每个浏览器客户端一样行事?)

4

1 回答 1

1

您没有在回答中明确说明这一点,但我假设 Jsoup 发送的 HTML 与您的浏览器看到的不同。在这种情况下,您可能需要设置用户代理标头,以便 Jsoup 看起来像您的浏览器。

于 2014-05-31T13:29:05.637 回答