php - 如何检查页面是否没有索引？

Question

我的意图是使用 PHP 获取链接，也许使用简单的 PHP DOM 解析器（或类似的东西）解析内容并查找 H1-H6 标记。但在此之前，我需要确定该页面是否被索引。

除了解析内容和搜索<meta name="robots" content="noindex">或类似内容之外，有没有办法可以检查页面是否也在 robots.txt 中设置为 noindex？

score 1 · Accepted Answer

页面有两种指定 noindex 的方式：通过部分中的元 HTML 标记（如您所述），或通过响应中的 HTTP 标头。

最重要的是，有两种方法可以指定noindex：一种是“noindex”，另一种是“none”（相当于“noindex，nofollow”）。

HTML 标签可以针对多个爬虫，可能如下所示：

<meta name="robots" content="noindex" />

或者

<meta name="googlebot" content="noindex" />

或者

<meta name="AdsBot-Google" content="noindex" />

或其他。

谷歌在这里有一篇很好的文章

所以检查 noindex 的方法是两者都做：

检查 HTTP 响应中是否包含“noindex”或“none”的 X-Robots-Tag（尝试 curl -I https://www.example.com以查看它们的外观）
获取 HTML 并在内容属性中扫描元标记以查找“noindex”或“none”

1 回答 1