问题标签 [robots.txt]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp.net-mvc - Robots.txt,禁止多语言 URL
我有一个用户无法登录的公共页面。所以我有一个没有链接的网址,您必须手动输入然后登录。
但是,该 url 是多语言的,所以它可以是“/SV/Account/Logon”或“/EN/Account/Logon”等。我可以禁用这个 url 来为所有语言编制索引吗?
search-engine - 在 robots.txt 中,Disallow: /?s 会阻止什么?
当搜索引擎爬取网站时,这条线会阻止什么?
不允许:/?s
robots.txt - Robots.txt 不工作
我使用 robots.txt 来限制我网站中的一个文件夹。该文件夹包含正在建设中的站点。谷歌已将所有处于测试阶段的网站编入索引。所以我使用了 robots.txt。我首先提交了站点并且启用了 robots.txt。现在状态为 www.mysite.com/robots.txt 的成功。但谷歌仍在列出这些测试链接。这是我为 robots.txt 编写的代码...
谁能建议我可能是什么问题?提前致谢
indexing - robots.txt 如何不允许引擎在 url:“http:
是我一直在使用的 - 我的猜测是我可能需要以某种方式转义引号。在 Google 网站管理员工具中,它甚至不会读取该引号(它允许您查看 robots.txt 文件并在几个 url 上对其进行测试)。
在 Google 网站管理员工具上,它会显示 robots.txt 文件,但此行不带引号。
任何建议,将不胜感激。
主要问题是脚本格式不正确,并且该站点存在爬网错误:
是我们收到抓取错误的页面之一的示例。我的假设是修复 robots.txt 页面将阻止这些页面出现在网站管理员工具中的抓取错误中。
robots.txt - 帮助正确创建 robots.txt
我有这样的动态网址。
mydomain.com/?pg=login
mydomain.com/?pg=reguser
mydomain.com/?pg=aboutus
mydomain.com/?pg=termsofuse
当请求页面时。mydomainname.com/?pg=login index.php 包含 login.php 文件。
一些网址被转换为静态网址,如 mydomain.com/aboutus.html mydomain.com/termsofuse.html
我需要允许索引 mydomainname.com/aboutus.html、mydomainname.com/termsofuse.html 并禁止 mydomainname.com/?pg=login、mydomainname.com/?pg=reguser,请帮助管理我的 robots.txt 文件。
我还有 mydomainname.com/posted.php?details=50 (详细信息可以有任何数字),我将其转换为 mydomainname.com/details/50.html 我还需要允许所有此类 URL。
regex - robots.txt 的正则表达式 - 禁止目录中的某些内容,但不允许目录本身
我正在使用带有自定义永久链接的 wordpress,我想禁止我的帖子,但让蜘蛛可以访问我的类别页面。以下是 URL 外观的一些示例:
分类页面: somesite dot com /2010/category-name/
发布: somesite dot com /2010/category-name/product-name/
所以,我很好奇是否有某种类型的正则表达式解决方案可以将页面留在 /category-name/ 允许,同时不允许更深层次的任何内容(第二个示例。)
有任何想法吗?谢谢!:)
c++ - 使用 C++ 解析 robots.txt 文件
是否有任何要解析的库robots.txt
,如果它不存在,我如何使用 boost regex 用 c++ 编写它?
robots.txt - 我希望我的 robots.txt 只允许在谷歌中索引我的索引文件。这看起来怎么样?
我希望我的 robots.txt 只允许在谷歌中索引我的索引文件。这看起来怎么样?以下会做的伎俩?
html - 如何让 http://mysite.com/ 在搜索引擎中编入索引,而不是 http://mysite.com/index.php,仅此而已?
我只想在一个搜索引擎中获得...
引,而不是... 我只想允许索引网站的主页,仅此而已。我不希望机器人跟随主页上的任何链接。我的元标记包括以下内容:
我的 robots.txt 包括以下内容:
这会达到我想要的结果吗?
提前致谢!
.htaccess - 301 重定向到除 robots.txt 之外的所有内容
我们已将我们的网站移至新域,并希望从搜索引擎中删除旧网站的所有页面。它是同一个站点,相同的内容,只是一个新域,因此搜索引擎会因为重复的内容(也许)而花费时间。我们已将 .htaccess 301 从旧站点添加到新站点:
现在,为了从搜索引擎中删除我们的旧网站,我们将旧网站上的 robots.txt 更改为:
问题是,由于 .htaccess 301 重定向,搜索引擎正在从 new-domain.com 获取 robots.txt。
如何限制 robots.txt 的 301 重定向?