问题标签 [robots.txt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
11764 浏览

web-crawler - 如何设置仅允许站点默认页面的robot.txt

假设我在http://example.com上有一个网站。我真的很想让机器人看到主页,但是任何其他页面都需要阻止,因为它对蜘蛛毫无意义。换句话说

http://example.comhttp://example.com/应该被允许,但 http://example.com/anythinghttp://example.com/someendpoint.aspx应该被阻止。

此外,如果我可以允许某些查询字符串传递到主页,那就太好了: http ://example.com?okparam=true

但不是 http://example.com?anythingbutokparam=true

0 投票
5 回答
2958 浏览

seo - 我应该摆脱访问我网站的机器人吗?

我一直在我的跟踪器上注意到机器人正在访问我的网站。我应该更改或编辑我的 robots.txt 还是更改某些内容?不确定这是否好,因为它们正在索引或什么?

0 投票
4 回答
1081 浏览

robots.txt - Googlebots 忽略 robots.txt?

我在根目录中有一个包含以下 robots.txt 的站点:

Googlebots 全天都在扫描此站点中的页面。我的文件或 Google 有问题吗?

0 投票
3 回答
1567 浏览

seo - 可以防止搜索引擎蜘蛛无限爬取搜索结果上的分页链接吗?

我们的 SEO 团队希望向蜘蛛打开我们的主要动态搜索结果页面,并从元标记中删除“nofollow”。蜘蛛目前可以通过允许 robots.txt 中的路径访问它,但在元标记中使用“nofollow”子句来防止蜘蛛超出第一页。

<meta name="robots" content="index,nofollow">

我担心如果我们删除“nofollow”,对我们的搜索系统的影响将是灾难性的,因为蜘蛛将开始爬取结果集中的所有页面。我将不胜感激有关以下方面的建议:

1)有没有办法从元标记中删除“nofollow”,但防止蜘蛛只关注页面上的某些链接?我读过关于 rel="nofollow" 的不同意见,这是一个可行的选择吗?

<a rel="nofollow" href="http://www.mysite.com/paginglink" >Next Page</a>

2)有没有办法控制蜘蛛走多远的“深度”?如果他们点击几页然后停止,那也不会那么糟糕。

3)我们的搜索结果页面有标准的下一个/上一个链接,理论上这会导致蜘蛛无限递归地点击页面,这对搜索引擎优化有什么影响?

我了解不同蜘蛛的行为不同,但我主要关注的是大玩家,例如 Google、Yahoo、MSN。

请注意,我们的搜索结果页面和分页链接对机器人不友好,因为它们没有被重写并且有一个 ?name=value 查询字符串,但据我所知,蜘蛛不再只是在看到 '? ' 因为结果页面正在以不错的页面排名被索引。

0 投票
1 回答
7689 浏览

robots.txt - Robots.txt 禁止一切,只允许站点/页面的特定部分。Ultraseek 和 FAST 等爬虫是否支持“允许”?

只是想知道是否可以禁止整个网站供爬虫使用,只允许特定网页或部分?FAST 和 Ultraseek 等爬虫是否支持“允许”?

0 投票
4 回答
2714 浏览

robots.txt - Googlebot 不尊重 Robots.txt

出于某种原因,当我查看 Google 网站管理员工具的“分析 robots.txt”以查看我们的 robots.txt 文件阻止了哪些网址时,这不是我所期望的。这是我们文件开头的片段:

对于 Googlebot 和 Mediapartners-Google,scripts 文件夹中的任何内容都会被正确阻止。我可以看到这两个机器人看到了正确的指令,因为 Googlebot 说脚本从第 7 行被阻止,而 Mediapartners-Google 从第 4 行被阻止。但是我从第二个用户下的不允许的 url 中输入的任何其他 url -agent 指令未被阻止!

我想知道我的评论或使用绝对网址是否把事情搞砸了......

任何见解都值得赞赏。谢谢。

0 投票
5 回答
2610 浏览

seo - robots.txt:除了少数几个,禁止所有,为什么不呢?

我一直在考虑禁止除 Ask、Google、Microsoft 和 Yahoo! 之外的所有爬虫。从我的网站。

这背后的原因是我从未见过任何其他网络爬虫产生任何流量。

我的问题是:

  1. 有什么理由不这样做吗?
  2. 有人做过吗?
  3. 你注意到任何负面影响了吗?

更新:
到目前为止,我使用黑名单方法:如果我不喜欢爬虫,我将它们添加到禁止列表中。
我不喜欢列入黑名单,因为这是一个永无止境的故事:那里总是有更多的爬虫。

我不太担心真正丑陋的行为不端的爬虫,它们会被自动检测并阻止。(无论如何,他们通常不要求 robots.txt :)

然而,许多爬虫实际上并没有以任何方式行为不端,它们似乎并没有为我/我的客户创造任何价值。
例如,有几个爬虫为网站提供动力,声称他们将成为下一个谷歌;只有更好。我从未见过来自他们的任何流量,而且我对他们变得比上述四个搜索引擎中的任何一个都好持怀疑态度。

更新 2:
一段时间以来,我一直在分析几个站点的流量,似乎对于合理的小型站点,每天有 100 个唯一的人类访问者(=我无法识别为非人类的访问者)。大约 52% 的生成流量来自自动化流程。

60% 的自动访问者没有阅读 robots.txt,40%(占总流量的 21%)确实请求 robots.txt。(这包括 Ask、Google、Microsoft 和 Yahoo!)

所以我的想法是,如果我阻止所有似乎对我没有任何价值的表现良好的爬虫,我可以将带宽使用和服务器负载减少大约 12% - 17%。

0 投票
5 回答
1330 浏览

search - 如何防止 robots.txt 从暂存环境传递到生产环境?

我过去曾发生过,我们的一位 IT 专家会意外地将 robots.txt 从生产环境中移出。阻止谷歌和其他人在生产中索引我们客户的网站。有没有很好的方法来处理这种情况?

提前致谢。

0 投票
3 回答
4859 浏览

c# - 任何人都有任何 C# 代码来解析 robots.txt 并针对它评估 URL

简短的问题:

有没有人有任何 C# 代码来解析 robots.txt,然后根据它评估 URL,所以看看它们是否会被排除在外。

长问题:

我一直在为尚未发布给谷歌的新网站创建站点地图。站点地图有两种模式,用户模式(如传统站点地图)和“管理员”模式。

管理模式将显示网站上所有可能的 URL,包括自定义条目 URL 或特定外部合作伙伴的 URL - 例如example.com/oprah在 Oprah 上看到我们网站的任何人。我想在 Excel 电子表格以外的地方跟踪已发布的链接。

我不得不假设有人可能会/oprah在他们的博客或其他地方发布链接。我们实际上并不希望这个“迷你奥普拉网站”被编入索引,因为它会导致非奥普拉观众能够找到奥普拉的特别优惠。

因此,在创建站点地图的同时,我还添加了 URL,例如/oprah要从我们的robots.txt文件中排除。

然后(这是实际的问题)我想“能够在站点地图上显示文件是否被索引并且对机器人可见不是很好吗”。这将非常简单 - 只需解析 robots.txt,然后评估针对它的链接。

然而,这是一个“奖励功能”,我当然没有时间去写它(甚至认为它可能没有那么复杂) - 所以我想知道是否有人已经编写了任何代码来解析 robots.txt ?

0 投票
4 回答
24869 浏览

web-crawler - Robots.txt:只允许主要 SE

有没有办法配置 robots.txt 以便该站点只接受来自 Google、Yahoo! 的访问?和 MSN 蜘蛛?