我的问题是,当我使用 jsoup lib 解析特定的 url 时,它一直很棒,直到有一天我的解析损坏了,返回的文档有一些标签,这些标签与旧文档不同,它有名为 meta 标签“机器人”。
响应中的标头示例:
<head>
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
<meta name="format-detection" content="telephone=no" />
<meta name="viewport" content="initial-scale=1.0" />
</head>
我的问题是,你认为我怎样才能克服这个障碍?尝试使用其他几个解析 javascript 的库,但它没有帮助并且结果相同,也许我没有正确使用它。
(我了解到元标记机器人是为了防止机器人,最初是为搜索引擎设计的,我怎样才能绕过这种行为?我怎样才能像普通的每个浏览器客户端一样行事?)