0

我想防止页面及其资产(图像)被索引。

因此,如果我告诉爬虫跳过该页面,但该页面仍在 sitemap.xml 中注册,那么该页面上的任何信息都会被编入索引吗?

4

2 回答 2

0

robots.txt 不允许抓取,而不是索引

如果您在 robots.txt 中禁止抓取某个网址,并在站点地图中列出该网址,则仍不允许抓取该网址。站点地图中的出现不会改变这一点。

不过,此 URL 可能仍会被编入索引(无论它是否在站点地图中)。

于 2017-06-29T13:28:17.687 回答
0

只是为了添加到前面的答案,您可以在 robots.txt 文件中使用Noindex指令。它不是标准 AFAIK 的一部分,但很常用,请参阅博客- 尽管对此似乎存在不同意见。或者,您可以在网页中使用机器人元标记

像往常一样,不能保证所有爬虫都会遵守机器人指令,但主要的会遵守。

于 2017-06-30T07:55:03.203 回答