4

我的意图是使用 PHP 获取链接,也许使用简单的 PHP DOM 解析器(或类似的东西)解析内容并查找 H1-H6 标记。但在此之前,我需要确定该页面是否被索引。

除了解析内容和搜索<meta name="robots" content="noindex">或类似内容之外,有没有办法可以检查页面是否也在 robots.txt 中设置为 noindex?

4

1 回答 1

1

页面有两种指定 noindex 的方式:通过部分中的元 HTML 标记(如您所述),或通过响应中的 HTTP 标头。

最重要的是,有两种方法可以指定noindex:一种是“noindex”,另一种是“none”(相当于“noindex,nofollow”)。

HTML 标签可以针对多个爬虫,可能如下所示:

<meta name="robots" content="noindex" />

或者

<meta name="googlebot" content="noindex" />

或者

<meta name="AdsBot-Google" content="noindex" />

或其他。

谷歌在这里有一篇很好的文章

所以检查 noindex 的方法是两者都做:

  1. 检查 HTTP 响应中是否包含“noindex”或“none”的 X-Robots-Tag(尝试 curl -I https://www.example.com以查看它们的外观)
  2. 获取 HTML 并在内容属性中扫描元标记以查找“noindex”或“none”
于 2020-08-17T09:15:56.297 回答