问题标签 [robots.txt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1210 浏览

asp.net-mvc - Robots.txt,禁止多语言 URL

我有一个用户无法登录的公共页面。所以我有一个没有链接的网址,您必须手动输入然后登录。

但是,该 url 是多语言的,所以它可以是“/SV/Account/Logon”或“/EN/Account/Logon”等。我可以禁用这个 url 来为所有语言编制索引吗?

0 投票
1 回答
832 浏览

search-engine - 在 robots.txt 中,Disallow: /?s 会阻止什么?

当搜索引擎爬取网站时,这条线会阻止什么?

不允许:/?s

0 投票
2 回答
9597 浏览

robots.txt - Robots.txt 不工作

我使用 robots.txt 来限制我网站中的一个文件夹。该文件夹包含正在建设中的站点。谷歌已将所有处于测试阶段的网站编入索引。所以我使用了 robots.txt。我首先提交了站点并且启用了 robots.txt。现在状态为 www.mysite.com/robots.txt 的成功。但谷歌仍在列出这些测试链接。这是我为 robots.txt 编写的代码...

谁能建议我可能是什么问题?提前致谢

0 投票
0 回答
259 浏览

indexing - robots.txt 如何不允许引擎在 url:“http:

是我一直在使用的 - 我的猜测是我可能需要以某种方式转义引号。在 Google 网站管理员工具中,它甚至不会读取该引号(它允许您查看 robots.txt 文件并在几个 url 上对其进行测试)。

在 Google 网站管理员工具上,它会显示 robots.txt 文件,但此行不带引号。

任何建议,将不胜感激。

主要问题是脚本格式不正确,并且该站点存在爬网错误:

是我们收到抓取错误的页面之一的示例。我的假设是修复 robots.txt 页面将阻止这些页面出现在网站管理员工具中的抓取错误中。

0 投票
1 回答
189 浏览

robots.txt - 帮助正确创建 robots.txt

我有这样的动态网址。

mydomain.com/?pg=login
mydomain.com/?pg=reguser
mydomain.com/?pg=aboutus
mydomain.com/?pg=termsofuse

当请求页面时。mydomainname.com/?pg=login index.php 包含 login.php 文件。

一些网址被转换为静态网址,如 mydomain.com/aboutus.html mydomain.com/termsofuse.html

我需要允许索引 mydomainname.com/aboutus.html、mydomainname.com/termsofuse.html 并禁止 mydomainname.com/?pg=login、mydomainname.com/?pg=reguser,请帮助管理我的 robots.txt 文件。

我还有 mydomainname.com/posted.php?details=50 (详细信息可以有任何数字),我将其转换为 mydomainname.com/details/50.html 我还需要允许所有此类 URL。

0 投票
2 回答
1067 浏览

regex - robots.txt 的正则表达式 - 禁止目录中的某些内容,但不允许目录本身

我正在使用带有自定义永久链接的 wordpress,我想禁止我的帖子,但让蜘蛛可以访问我的类别页面。以下是 URL 外观的一些示例:

分类页面: somesite dot com /2010/category-name/

发布: somesite dot com /2010/category-name/product-name/

所以,我很好奇是否有某种类型的正则表达式解决方案可以将页面留在 /category-name/ 允许,同时不允许更深层次的任何内容(第二个示例。)

有任何想法吗?谢谢!:)

0 投票
1 回答
1050 浏览

c++ - 使用 C++ 解析 robots.txt 文件

是否有任何要解析的库robots.txt,如果它不存在,我如何使用 boost regex 用 c++ 编写它?

0 投票
1 回答
2086 浏览

robots.txt - 我希望我的 robots.txt 只允许在谷歌中索引我的索引文件。这看起来怎么样?

我希望我的 robots.txt 只允许在谷歌中索引我的索引文件。这看起来怎么样?以下会做的伎俩?

0 投票
2 回答
99 浏览

html - 如何让 http://mysite.com/ 在搜索引擎中编入索引,而不是 http://mysite.com/index.php,仅此而已?

我只想在一个搜索引擎中获得...

引,而不是...

我只想允许索引网站的主页,仅此而已。我不希望机器人跟随主页上的任何链接。

我的元标记包括以下内容:

我的 robots.txt 包括以下内容:

这会达到我想要的结果吗?

提前致谢!

0 投票
2 回答
4238 浏览

.htaccess - 301 重定向到除 robots.txt 之外的所有内容

我们已将我们的网站移至新域,并希望从搜索引擎中删除旧网站的所有页面。它是同一个站点,相同的内容,只是一个新域,因此搜索引擎会因为重复的内容(也许)而花费时间。我们已将 .htaccess 301 从旧站点添加到新站点:

现在,为了从搜索引擎中删除我们的旧网站,我们将旧网站上的 robots.txt 更改为:

问题是,由于 .htaccess 301 重定向,搜索引擎正在从 new-domain.com 获取 robots.txt。

如何限制 robots.txt 的 301 重定向?