这是我的脚本代码:
<script type="text/javascript" src="//example.com/js/infolinks_main.js"></script>
我想让爬虫不关注或索引example.com/js/infolinks_main.js
。
我怎样才能完成这项任务?我的根目录中有 robots.txt,但该 URL 是外部 URL。
注意:我不想使用iframe
.
这是我的脚本代码:
<script type="text/javascript" src="//example.com/js/infolinks_main.js"></script>
我想让爬虫不关注或索引example.com/js/infolinks_main.js
。
我怎样才能完成这项任务?我的根目录中有 robots.txt,但该 URL 是外部 URL。
注意:我不想使用iframe
.
script
元素不能有属性rel
,所以nofollow
不能使用。即使它可以使用,请注意这不是nofollow
关于禁止机器人抓取/索引 URL。
要禁止抓取脚本,您必须使用 robots.txt:
User-agent: *
Disallow: /js/infolinks_main.js
或者,如果您想禁止抓取所有脚本:
User-agent: *
Disallow: /js/
您必须使用托管脚本的主机的 robots.txt 文件。它不一定是托管 HTML 文档的主机。
(请注意,这不会禁止对脚本编制索引。如果要禁止编制索引,可以使用X-Robots-Tag
带有值的标头noindex
,但必须允许抓取。由于脚本通常不会被通用搜索引擎索引,您可能想防止抓取,而不是索引。)
rel=nofollow 仅适用于超链接,将其添加到任何其他类型的元素是没有意义的。
如果您的脚本创建链接,您可以编辑脚本以确保它们使用 rel=nofollow 属性这样做;但鉴于谷歌机器人在阅读页面时不执行脚本,这样做没有任何意义。