问题标签 [robots.txt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3218 浏览

.htaccess - 这个 robots.txt 是否只允许 googlebot 为我的网站编制索引?

这个 robots.txt 文件是否只允许 googlebot 为我网站的 index.php 文件编制索引?CAVEAT,我有一个 htaccess 重定向,输入的人

http://www.example.com/index.php

被简单地重定向到

http://www.example.com/

所以,这是我的 robots.txt 文件内容...

提前致谢!

0 投票
1 回答
748 浏览

.htaccess - 即使使用 htaccess 重定向,googlebot 也会索引我的 index.php 吗?

在我的 htaccess 文件中使用重定向语句,在地址栏中键入以下内容的人...

...被重定向到...

我的所有网站页面上都有一个 noindex、nofollow 元标记。

我的问题是,鉴于重定向行为和元数据,如果我的 robots.txt 文件如下所示,googlebot 是否会索引我的主页(即 index.php)...

如果没有,我应该如何更改我的 robots.txt,以便只有我的主页会被谷歌索引,仅此而已?

提前致谢!

0 投票
6 回答
7910 浏览

search - 机器人.txt;什么编码?

我即将创建一个robots.txt文件。

我正在使用记事本

我应该如何保存文件?UTF8ANSI还是什么?

另外,它应该是大写的 R吗?

在文件中,我指定了站点地图位置。这应该是大写的 S吗?

谢谢

0 投票
5 回答
4636 浏览

php - BOT/蜘蛛陷阱的想法

我有一个客户,其域似乎受到 DDoS 的严重打击。在日志中,具有随机 IP 的用户代理看起来很正常,但他们翻阅页面的速度太快而无法成为人类。他们似乎也没有要求任何图像。我似乎找不到任何模式,我怀疑它是一群 Windows 僵尸。

客户端过去曾遇到过垃圾邮件攻击问题——甚至不得不将 MX 指向 Postini 以获取 6.7 GB/天的垃圾邮件来阻止服务器端。

我想在 robots.txt 不允许的目录中设置一个 BOT 陷阱……只是以前从未尝试过这样的事情,希望那里有人对陷阱 BOT 有创意!

编辑:我已经有很多想法来捕捉一个..当它落入陷阱时该怎么办。

0 投票
2 回答
351 浏览

robots.txt - 一个 robots.txt 允许只抓取实时网站,其余的应该被禁止

我需要有关使用 robots.txt 问题的指南如下。

我有一个实时网站“www.faisal.com”或“faisal.com”,并有两个测试网络服务器,如下所示

“faisal.jupiter.com”和“faisal.dev.com”

我想要一个 robots.txt 来处理这一切,我不希望爬虫从“faisal.jupiter.com”和“faisal.dev.com”索引页面只允许从“www.faisal.com”索引页面或“faisal.com”

我想要一个 robots.txt 文件,该文件将在所有网络服务器上,并且应该只允许索引实时网站。

0 投票
1 回答
1645 浏览

spring - spring SimpleUrlHandlerMapping 到 robots.txt

我正在使用spring框架以下是url到控制器的映射

当我点击controller.web 控制进入网络控制器但是当我点击robots.txt 控制不转移到robotsController 相反它试图找出资源robots.txt 如果我从上下文目录中删除robots.txt 它说找不到资源.

如果我将 robots.txt 更改为 robots.web,它工作正常,这意味着 robots.txt 的名称有些可疑,知道吗?

0 投票
1 回答
532 浏览

security - robots.txt 和 .htaccess 中的 Mod 重写

在 robots.txt 文件中,我将禁止我网站的某些部分。

例如,我不希望我的“条款和条件”被搜索引擎索引。

文件的真实路径实际上是

但我使用 .htaccess 重写了 URL。

现在问我的问题,我应该在 robots.txt 中指定重写的 url 还是实际的 url?

后续问题:我是否也需要有一个“允许”行,还是搜索引擎会假设所有其他不在 robots.txt 文件中的都是允许的?

谢谢

0 投票
3 回答
2890 浏览

c# - robots.txt 如何禁止除站点地图中的 URL 之外的所有 URL

我需要控制允许对哪些 URL 进行索引。为此,我希望允许谷歌仅索引我的站点地图中列出的 URL,并禁止谷歌索引其他任何内容。

解决这个问题的最简单方法是,如果有办法将 robots.txt 配置为禁止所有内容:

用户代理: *

不允许: /

同时允许列出的每个 URL:

站点地图:sitemap1.xml

站点地图:sitemap2.xml

可以将 robots.txt 配置为执行此操作吗?或者还有其他解决方法吗?

0 投票
2 回答
17385 浏览

.htaccess - 如何阻止搜索引擎索引以 origin.domainname.com 开头的所有 url

我有 www.domainname.com, origin.domainname.com 指向同一个代码库。有没有办法,我可以防止 basename origin.domainname.com 的所有 url 被索引。

robots.txt 中是否有一些规则可以做到这一点。两个网址都指向同一个文件夹。另外,我尝试在 htaccess 文件中将 origin.domainname.com 重定向到 www.domainname.com,但它似乎不起作用..

如果有人遇到过类似问题并可以提供帮助,我将不胜感激。

谢谢

0 投票
3 回答
192 浏览

seo - 为什么谷歌索引这个?

在这个网页中:

http://www.alvolante.it/news/pompe_benzina_%E2%80%9Ctruccate%E2%80%9D_autostrada-308391044

有这张图片:

http://immagini.alvolante.it/sites/default/files/imagecache/anteprima_100/images/rifornimento_benzina.jpg

如果 robots.txt 中有“Disallow: /sites/”,为什么这个图片会被索引??

您可以看到从这个搜索索引:

http://www.google.it/images?q=rifornimento+benzina&um=1&ie=UTF-8&source=og&sa=N&hl=it&tab=wi&biw=1280&bih=712