我的意图是使用 PHP 获取链接,也许使用简单的 PHP DOM 解析器(或类似的东西)解析内容并查找 H1-H6 标记。但在此之前,我需要确定该页面是否被索引。
除了解析内容和搜索<meta name="robots" content="noindex">
或类似内容之外,有没有办法可以检查页面是否也在 robots.txt 中设置为 noindex?
我的意图是使用 PHP 获取链接,也许使用简单的 PHP DOM 解析器(或类似的东西)解析内容并查找 H1-H6 标记。但在此之前,我需要确定该页面是否被索引。
除了解析内容和搜索<meta name="robots" content="noindex">
或类似内容之外,有没有办法可以检查页面是否也在 robots.txt 中设置为 noindex?
页面有两种指定 noindex 的方式:通过部分中的元 HTML 标记(如您所述),或通过响应中的 HTTP 标头。
最重要的是,有两种方法可以指定noindex:一种是“noindex”,另一种是“none”(相当于“noindex,nofollow”)。
HTML 标签可以针对多个爬虫,可能如下所示:
<meta name="robots" content="noindex" />
或者
<meta name="googlebot" content="noindex" />
或者
<meta name="AdsBot-Google" content="noindex" />
或其他。
谷歌在这里有一篇很好的文章
所以检查 noindex 的方法是两者都做: