问题标签 [robots.txt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
9876 浏览

robots.txt - 如何禁止所有动态网址 robots.txt

如何禁止 robots.txt 中的所有动态网址

我想禁止所有以 /?q= 开头的东西

0 投票
3 回答
3312 浏览

robots.txt - robots.txt 和结尾的通配符不允许

我需要禁止索引 2 个页面,其中一个是动态的:
site.com/news.php
site.com/news.php?id=__
site.com/news-all.php

我应该在 robots.txt 中写什么:

或者

或者

最后是否应该使用通配符?

0 投票
3 回答
22415 浏览

robots.txt - 如何禁止 robots.txt 中的搜索页面

我需要禁止http://example.com/startup?page=2搜索页面被编入索引。

我希望http://example.com/startup被索引,但不是http://example.com/startup?page=2和 page3 等等。

此外,启动可以是随机的,例如http://example.com/XXXXX?page

0 投票
3 回答
2469 浏览

plone - 如何在 Plone 中修改 robots.txt?

我有一个我管理的 Plone 站点,我想将一些页面添加到 robots.txt 的 Disallow 中。

Plone 似乎会自动生成一个 robots.txt 文件。我找不到任何修改它的方法。我还尝试将“robots.txt”文件添加到应用程序的根目录,但它显示“robots.txt 已保留”

有谁知道如何用 Plone (v3) 修改它?

0 投票
4 回答
792 浏览

seo - 如何在负载平衡的环境中动态编辑 robots.txt?

看起来我们将不得不很快在这里开始对我们的网络服务器进行负载平衡。

我们有一个动态编辑 robots.txt 的功能请求,这对一台主机来说不是问题——但是一旦我们启动负载均衡器并开始运行——听起来我必须将文件 scp 到另一台主机(s )。

这听起来非常“糟糕”。你会如何处理这种情况?

我已经让客户编辑元标记“机器人”(imo)应该有效地做他想要从robots.txt编辑中做的同样的事情,但我真的不太了解SEO。

也许有一种完全不同的处理方式?

更新

看起来我们现在将它存储在 s3 中并将它的内存缓存在前端......

我们现在如何做

所以我们正在使用 merb..我映射到我们的 robots.txt 的路线,如下所示:

那么相关代码如下所示:

0 投票
5 回答
14923 浏览

seo - 如何使用 robots.txt 只允许爬虫访问 index.php?

如果我只想允许爬虫访问 index.php,这行得通吗?

0 投票
2 回答
67 浏览

robots.txt - 站点地图中的阻止链接

我正在使用一个在线站点地图生成器工具,它生成链接,即使这些链接在robots.txt中被阻止。这些被屏蔽的链接会影响网站排名吗?. 有没有办法克服它?

0 投票
1 回答
252 浏览

seo - robots.txt 配置

我对这个机器人文件有一些疑问。

这将禁用每个文件夹内所有文件的爬虫,对吗?或者我必须在每个文件夹名称的末尾添加一个星号?

我认为应该这样做。但我不确定是否必须在我认为不需要Allow: /之后立即添加。User-agent

这个机器人文件有什么问题吗?

PS:如果有人可以建议本地使用的验证应用程序,我会很高兴。

谢谢。

0 投票
1 回答
197 浏览

seo - Robots.txt http://example.com 与 http://www.example.com

我有一种情况,我们有两个代码库需要保持不变..

例子:http://example.com

和一个新的网站http://www.example.com

旧站点(无 WWW)支持一些遗留代码并具有以下规则:

但是在新版本(带有 WWW)中没有robots.txt.

Google 是否将旧的(无 WWW)robots.txt文件作为其规则?并将添加

到(WWW)方面覆盖这个?

robots.txt目前不能选择在旧代码库中进行更改。

0 投票
3 回答
728 浏览

search-engine - robots.txt 限制搜索引擎索引指定关键字的隐私

我有一个庞大的个人姓名目录,以及我希望在搜索引擎中尽可能多地索引的通用公开信息和类别特定信息。在网站上列出这些名字本身并不是人们关心的问题,但有些人不想在他们“谷歌”自己时出现在搜索结果中。

我们希望继续在页面中列出这些名称并且仍然索引该页面但不索引搜索引擎中的指定名称或关键字。

这可以逐页完成还是设置两个页面是更好的解决方法:

可用选项:

  • 如果 user-agent=robot/search engine, PHP可以审查关键字
  • htaccess将机器人限制为未经审查的内容,但允许使用第二个审查版本
  • 元标签定义词不索引?
  • JavaScript可以对机器人隐藏关键字,但可以通过其他方式查看