javascript - 使用 Jsoup 解析 html - 返回带有 robots 元标记的文档

Question

我的问题是，当我使用 jsoup lib 解析特定的 url 时，它一直很棒，直到有一天我的解析损坏了，返回的文档有一些标签，这些标签与旧文档不同，它有名为 meta 标签“机器人”。

响应中的标头示例：

<head>
  <meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
  <meta name="format-detection" content="telephone=no" />
  <meta name="viewport" content="initial-scale=1.0" />
</head>

我的问题是，你认为我怎样才能克服这个障碍？尝试使用其他几个解析 javascript 的库，但它没有帮助并且结果相同，也许我没有正确使用它。

（我了解到元标记机器人是为了防止机器人，最初是为搜索引擎设计的，我怎样才能绕过这种行为？我怎样才能像普通的每个浏览器客户端一样行事？）

score 1 · Accepted Answer

您没有在回答中明确说明这一点，但我假设 Jsoup 发送的 HTML 与您的浏览器看到的不同。在这种情况下，您可能需要设置用户代理标头，以便 Jsoup 看起来像您的浏览器。

javascript - 使用 Jsoup 解析 html - 返回带有 robots 元标记的文档

1 回答 1

Related

Reference