javascript - 如何制作 HTML 标签以使搜索引擎爬虫无法访问它们

Question

score 8 · Accepted Answer

可能有也可能没有一种万无一失的技术来做到这一点。但是，为了安全起见，您可以执行以下操作：

在您的robots.txt文件中禁止这些链接。这需要创建一个名为的文件/robots.txt并添加以下行：

Disallow: /YourPage.html

到文件。

您还可以使用禁止关注链接：

<a href="http://www.example.com/" rel="nofollow">Link text</a>

但是，根据Wikipedia的说法，大多数（如果不是全部）搜索引擎实际上仍会跟踪该链接，只是不会将其编入索引或将其用于排名。

另一个想法是根本不使用 URL，而是使用脚本。就像是：

<a href="javascript:void(0)" onclick="GoSomewhere()">Google Can't Find Me!</a>
<script>
   function GoSomewhere()
   {
      window.location = '/YourPage.html';
   }
</script>

您可能还想重新考虑如何计算点击次数。也许您可以使用 Javascript 来注册一个点击，而不是将点击计为任何 HTTP 请求，因为机器人通常不会在页面上执行任何脚本。这就是Google Analytics和Clicky 之类的工作方式。

您还可以排除来自包含单词Googlebot的用户代理的任何点击。

希望这可以帮助！

score 1 · Accepted Answer

这个问题有点老了，但 nofollow 确实充当了搜索机器人不关注链接的“建议”。

对特定链接使用 rel="nofollow"

本页介绍了 google 如何解释 nofollow。基本上它说“一般”它不跟随它们，但如果其他站点链接到它们而不使用“nofollow”，则目标仍可能出现在索引中。

Google 和 Bing 网站管理员工具也有一部分允许您删除其索引中的 URL。

最后一个选项是 robots.txt 就像其他人提到的那样。

score 0 · Accepted Answer

nofollow 选项将阻止遵循网络标准的搜索引擎跟踪链接。如果您还想保护链接免受机器人、撇渣器等的侵害，我建议您在 DOM 准备好后使用 Javascript 将链接添加到您的 html 内容。

这将防止大多数机器人和所有搜索引擎首先看到这些链接，并防止人们在扫描您的网站以查找表单/电子邮件地址/电话号码/等时无意中跟踪链接。

score 0 · Accepted Answer

由于 Google 希望为其爬虫启用 Javascript

<a href="javascript:void(0)" onclick="openLink()">Link</a>

建议可能已过时。有人可以争辩说它仍然是链接语义（a），因此爬虫将跟随链接。防止这种情况的一种可能方法是将所有不应遵循的链接转换为跨度

<span onclick="openLink()">Link</span>

尽管这仍然可能不起作用，因为 DOM 中仍有信息表明该元素提供了点击处理程序。对于进一步的解决方法，需要添加一个单击事件侦听器body并从坐标中推断出实际单击了哪个按钮。这在计算上可能非常昂贵。

score 0 · Accepted Answer

您可以添加使用nofollow：

 <a rel="nofollow"> Bla Bla </a>

这是对网络爬虫不要跟随链接的建议。

score 0 · Accepted Answer

0

如果用户代理属于机器人，您可以使用 PHP 删除链接。

于 2014-06-16T21:50:10.690 回答

javascript - 如何制作 HTML标签以使搜索引擎爬虫无法访问它们

6 回答 6

Related

Reference

javascript - 如何制作 HTML 标签以使搜索引擎爬虫无法访问它们