3

I've always stopped google from indexing my website using a robots.txt file. Recently i've read an article from a google employee where he stated you should do this using meta tags. Does this mean Robots.txt won't work? Since i'm working with a CMS my options are very limited and its a lot easier just using a robots.txt file. My question is whats the worst that could happen if i proceed using a robots.txt file instead of meta tags.

4

2 回答 2

2

这是简单的区别:

  • robots.txt文件控制抓取。它指示正在寻找要爬行的页面的机器人(又名蜘蛛)“避开”某些地方。您将此文件放在网站的根目录中。

  • noindex标签控制索引。它告诉蜘蛛该页面不应该被索引。您将此标签放置在相关网页的代码中。

当您想要在目录级别或整个站点进行控制时,请使用 robots.txt 文件。但是,请记住,机器人不需要遵循这些指令。大多数都会,例如 Googlebot,但将任何高度敏感的信息保留在网站的可公开访问区域之外会更安全。

与 robots.txt 文件一样,noindex 标记将从搜索结果中排除页面。该页面仍将被抓取,但不会被编入索引。当您希望在单个页面级别进行控制时,请使用这些标签。

关于抓取和索引之间的区别:抓取(通过蜘蛛)是搜索引擎的蜘蛛如何跟踪您的网站;爬取的结果进入搜索引擎的索引。将此信息存储在索引中可加快相关搜索结果的返回速度——而不是扫描与搜索相关的每个页面,而是搜索索引(较小的数据库)以优化速度。

如果没有索引,搜索引擎会查看存在的与搜索词相关的每一个数据或信息,我们都有时间在等待搜索结果显示的同时制作和吃几个三明治。该索引使用蜘蛛来保持其数据库是最新的。

以下是标签的示例:

<meta name="robots" content="noindex,follow"/>

既然您阅读并理解了上述信息,我认为您可以自己回答您的问题;)

于 2018-09-04T11:50:51.633 回答
1

事实上,GoogleBot 有机会允许使用:

  • 无索引
  • 不关注
  • 爬行延迟

但在GoogleBlog-News上看到,从 2019 年 9 月起,它们将不再支持那些(0,001% 使用)命令。因此,您应该只在页面上使用元标记,以确保将来安全。

于 2019-07-05T04:20:03.687 回答