1

我的登台站点显示在搜索结果中,即使我已指定我不希望该站点被爬网。这是暂存站点的 robots.txt 文件的内容:

User-agent: Mozilla/4.0 (compatible; ISYS Web Spider 9)
Disallow:

User-agent: *
Disallow: /

我在这里做错了吗?

4

2 回答 2

3

您的 robots.txt 告诉 Google 不要抓取/索引您的网页内容。

它不会告诉 Google 不要您的网址添加到他们的搜索结果中。

因此,如果您的页面(被 robots.txt 阻止)链接到其他地方,并且 Google 找到了此链接,它会检查您的 robots.txt 是否允许抓取。它发现它是被禁止的,但是,它仍然有你的URL。

Now Google might decide that it would be useful to include this URL in their search index. But as they are not allowed (per your robots.txt) to get the page's metadata/content, they only index it with keywords from your URL itself, and possibly anchor/title text that someone else used to link to your page.

If you don't want your URLs to be indexed by Google, you'd need to use the meta-robots, e.g.:

 <meta name="robots" content="noindex">

See Google's documentation: Using meta tags to block access to your site

于 2013-03-30T17:10:52.730 回答
1

您的 robots 文件看起来很干净,但请记住 Google、Yahoo、Bing 等不需要抓取您的网站以将其编入索引。

开放目录项目或某种不太礼貌的机器人很有可能偶然发现它。如今,一旦其他人找到您的网站,似乎每个人都可以使用它。也让我发疯。

分期时的一个好的经验法则是:

  1. 在将机器人文件发布到您的生产站点之前,请务必测试您的机器人文件是否存在与语法相关的任何疏忽。尝试robots.txt 检查器分析 robots.txtRobots.txt 分析 - 检查您的网站是否可以被机器人访问

2.Password 在登台时保护您的内容。即使它有些虚假,也要在索引根目录下输入登录名和密码。对于你的粉丝和测试人员来说,这是一个额外的步骤——但如果你想要礼貌——或者——不礼貌的机器人,这是非常值得的。

3.根据项目,您可能不想使用您的实际域进行测试。即使我有一个静态 IP - 有时我会使用dnsdynamicnoip.com来登台我的受密码保护的站点。因此,例如,如果我想暂存我的域ihatebots.com :) 我将简单地转到 dnsdynamic 或 noip(它们是免费的顺便说一句)并创建一个假域,例如:ihatebots.user32.comsomthingtotallyrandom.user32.com然后分配我的IP地址给它。这样,即使有人抓取了我的临时项目——我的原始域:ihatebots.com仍然不受任何类型的搜索引擎结果的影响(顺便说一句,它的记录也是如此)。

请记住,全世界有数十亿美元旨在全天 24 小时寻找您,而且这个数字还在不断增加。这几天很艰难。如果可以,请在登台时发挥创意并始终使用密码保护。

祝你好运。

于 2013-03-29T20:56:48.540 回答