问题标签 [robots.txt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1062 浏览

robots.txt - robots.txt:禁止机器人访问给定的“网址深度”

我有这个结构的链接:

我希望 google & co 蜘蛛所有在 URL 中有一个标签的链接,但不是有两个或多个标签的 URL。

目前我使用html元标记“robots”->“noindex,nofollow”来解决这个问题。

是否有 robots.txt 解决方案(至少适用于某些搜索机器人)或者我是否需要继续使用“noindex,nofollow”并忍受额外的流量?

0 投票
3 回答
733 浏览

robots.txt - googlebot 会将我的网站编入索引吗?

在我的 robots.txt 文件中,我有以下行

用户代理:Googlebot-Mobile 禁止:/

用户代理:GoogleBot 禁止:/

站点地图: http: //mydomain.com/sitemapindex.xml

我知道如果我放前 4 行,googlebot 不会索引网站,但是如果我放最后一行Sitemap: http://mydomain.com/sitemapindex.xml,googlebot 能索引网站吗?

谢谢,

0 投票
1 回答
2084 浏览

robots.txt - Robots.txt 阻止访问所有 https:// 页面

阻止对任何机器人对 https:// 页面的所有访问的语法是什么?我有一个旧网站,现在没有 SSL,我想阻止对所有 https:// 页面的访问

0 投票
6 回答
2791 浏览

search-engine - 谷歌在我的网站上索引了我的测试文件夹:(我如何限制网络爬虫!

帮助 帮助!谷歌在我的网站上索引了一个测试文件夹,没有人知道我应该知道的:(!我如何限制谷歌索引链接和某些文件夹。

0 投票
10 回答
6264 浏览

robots.txt - robots.txt 的伦理

我有一个严肃的问题。忽略网站上存在 robots.txt 文件是否合乎道德?这些是我想到的一些考虑因素:

  1. 如果有人建立一个网站,他们会期待一些访问。诚然,网络爬虫在不点击可能支持该网站的广告的情况下使用带宽,但网站所有者将他们的网站放在网络上,对,那么他们期望他们永远不会被机器人访问有多合理?

  2. 一些网站显然使用 robots.txt 是为了防止他们的网站被 Google 或其他可能获取价格的实用程序抓取,从而让人们轻松进行价格比较。他们在网站上有私人搜索引擎,因此他们显然希望人们能够搜索该网站;显然他们只是不希望人们能够轻松地将他们的信息与其他供应商进行比较。

正如我所说,我不想争论。我想知道是否有人提出过在道德上允许忽略 robots.txt 文件的案例?我想不出允许忽略 robots.txt 的情况,主要是因为人们(或企业)花钱建立他们的网站,所以他们应该能够告诉世界上的谷歌/雅虎/其他 SE 他们不想在他们的索引上。

为了把这个讨论放在上下文中,我想创建一个价格比较网站,其中一个主要供应商有一个 robots.txt,它基本上可以防止任何人抢他们的价格。我希望能够获得他们的信息,但正如我所说,我不能证明只是无视网站所有者的意愿。

我在这里看到了一些非常尖锐的讨论,这就是为什么我想听听关注 Stack Overflow 的开发人员的意见。

顺便说一句,在Hacker News question上有一些关于这个话题的讨论,但他们似乎主要集中在这个问题的法律方面。

0 投票
2 回答
983 浏览

seo - sitemap.axd 是否被所有搜索引擎接受?

我目前正在使用 HttpHandler 动态生成站点地图文件,路径设置为 sitemap.axd。然后返回 xml 内容。我办公室里没有人确定是否所有搜索引擎都接受这个扩展名,或者他们是否需要 .xml 来解析。我知道我可以通过站长工具提交给谷歌,并使用robots.txt来表明sitemap是sitemap.axd。

sitemap.axd 是否被所有人接受?如果没有,有人知道哪些会或不会吗?

0 投票
6 回答
46995 浏览

nginx - 如何配置 nginx 以重定向到 robots.txt 和 sitemap.xml 的 url

我正在运行 nginx 0.6.32 作为 couchdb 的代理前端。我在数据库中有我的 robots.txt,可通过http://www.example.com/prod/_design/mydesign/robots.txt 访问。我也有我的 sitemap.xml,它是动态生成的,在一个类似的 url 上。

我尝试了以下配置:

这似乎可以作为重定向工作,但有没有更简单的方法?

0 投票
2 回答
1421 浏览

seo - 限制机器人访问(特定)查询字符串(参数)值?

使用robot.txt 是否可以限制机器人访问(特定)查询字符串(参数)值?

IE

0 投票
2 回答
392 浏览

web-crawler - 如何防止 googlebot 抓取 Ajaxified 链接?

我有一堆 ajaxified 链接,这些链接可以做一些事情,比如投票、投票、标记帖子——标准社区审核的东西。

问题是 googlebot 会抓取这些链接,然后投票赞成、反对并标记项目。

将此添加到 robots.txt 会阻止 googlebot 抓取这些链接吗?或者还有什么我需要做的吗?

谢谢!

编辑:更改了发布方法,googlebot 仍在标记帖子。

语法是:

有什么想法吗?

0 投票
1 回答
2003 浏览

sitemap - Google 站点地图和 Robots.txt 问题

我们的站点上有一个站点地图,http://www.gamezebo.com/sitemap.xml

站点地图中的一些网址在网站管理员中心报告为被我们的 robots.txt 阻止,请参阅gamezebo.com/robots.txt!尽管这些网址在 Robots.txt 中是不允许的。还有其他此类网址,例如我们的站点地图中存在 gamezebo.com/gamelinks,但它被报告为“受 robots.txt 限制的网址”。

我在网站管理员中心也有这个解析结果,上面写着“第 21 行:抓取延迟:Googlebot 忽略了 10 条规则”。这是什么意思?

我感谢您的帮助,

谢谢。