问题标签 [robots.txt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
190 浏览

web-crawler - 如何“合并”页面“\Default.aspx”和“\”?

我们的网站是用 ASP.NET 开发的。我们想要阻止来自 Google 和其他搜索引擎的 Default.aspx 页面。我们如何“关闭” Default.aspx 页面使其无法访问?或者有没有另一种方法来解决这个问题,这样我们就不会创建重复的内容。

0 投票
5 回答
51046 浏览

sitemap - 多个站点地图:robots.txt 中的条目?

我一直在使用谷歌搜索,但我找不到这个问题的答案。

robots.txt 文件可以包含以下行:

但是是否可以在 robots.txt 中指定多个站点地图索引文件并让搜索引擎识别并抓取每个站点地图索引文件中引用的所有站点地图?例如,这是否有效:

0 投票
2 回答
543 浏览

asp.net - 允许搜索引擎抓取用户名

我有一个网站,用户可以在其中输入他们的个人资料并用密码保护某些详细信息。我希望搜索引擎抓取配置文件的“未受保护”部分(因用户而异)。类似于在 facebook 中输入用户的姓名,他们的 Facebook 个人资料会出现在搜索结果中。我是否需要做任何特别的事情来确保机器人不会爬取受密码保护的部分,但仍会爬取(始终公开的)用户名?我不确定这是否是一个问题,但我想更新我的 robots.txt 以允许这样做。

另外,我如何确保机器人可以使用用户名(以安全的方式)?我是否必须使用名称列表创建一个单独的目录,还是有更好的方法?

感谢您的任何建议

0 投票
1 回答
708 浏览

.htaccess - Htaccess/robots.txt 允许搜索机器人探索主域而不是其他域上的目录

好的,我知道标题没有任何意义,所以在这里我试图详细解释它。

我正在使用一个主机,它为我的域提供空间,并让我在其上“添加”其他域。所以假设我有一个域 A,我添加了一个域 B。基本上,我的主机给了我一个 public_html,我可以在其中放置显示有人访问网站 A 的内容。但是,当我添加域 B 时,它可以让我放置B 的内容,在那个 public_html 的 INSIDE 中,这样网站 B.com 也可以通过访问 A.com/siteB 来访问......这一切都很好,除了谷歌已经开始索引 B.com 以及 A.com/ siteB,我对它索引 B.com 没问题,但我想阻止它索引 A.com/siteB,这样当人们搜索 B 时,它最终不会显示 A.com/siteB。

有任何想法吗?如果问题仍然不清楚,请告诉我。

0 投票
3 回答
22848 浏览

robots.txt - 禁止 robots.txt 中的某些网址

不久前,我们在一个站点上实施了一个评级系统,其中涉及到脚本的链接。然而,由于网站上的绝大多数评级为 3/5,而且评级在 1-5 之间非常均匀,我们开始怀疑搜索引擎爬虫等正在通过。使用的网址如下所示:

开始时,我们将以下内容添加到 robots.txt 中:

这是不正确的还是 googlebot 和其他人只是忽略了我们的 robots.txt?

0 投票
1 回答
863 浏览

search-engine - 如何禁止搜索引擎使用robot.txt 索引子目录/CRM?

甚至禁止索引整个站点?

0 投票
4 回答
262 浏览

search-engine - robots.txt 文件在 PHP 项目中的作用是什么?

robots.txt 文件在 PHP 项目中的作用是什么?

0 投票
2 回答
794 浏览

python - Python的robotparser忽略站点地图

我有以下 robots.txt

和下面的机器人解析器

但是当我做一个print robot_parser最重要的事情时,return robot_parser我得到的是

为什么它忽略了站点地图行,我错过了什么吗?

0 投票
4 回答
14394 浏览

seo - robots.txt 文件放在哪里?

robots.txt 应该放在哪里?

或者

我把文件放在了domainname.com/robots.txt,但是当我在浏览器中输入它时它没有打开。

替代文字 http://shup.com/Shup/358900/11056202047-My-Desktop.png

0 投票
3 回答
353 浏览

seo - 搜索引擎优化帮助与谷歌索引的页面

我正在为 Google 的搜索引擎优化我的网站,最近我注意到在执行“site:www.joemajewski.com”查询时,我得到了根本不应该被索引的页面的结果。

我们来看看这个页面,例如:http ://www.joemajewski.com/wow/profile.php?id=3

我创建了自己的 CMS,这只是用户 ID #3 的统计数据的细分,我注意到它已被 Google 索引,尽管它不应该被索引。我知道 Google 的结果需要一些时间才能准确反映我网站的内容,但该索引已被错误地编入索引近六个月。

以下是我采取的预防措施:

我的robots.txt文件有这样一行:

通过 Google 网站管理员工具运行 url 时,它表明我确实正确地创建了 disallow 命令。但是,它确实指出,如果链接到的页面没有被抓取,它仍可能会显示在搜索结果中。因此,我又采取了一项预防措施。

在源代码中,我包含了以下元数据:

我假设这follow意味着在计算 PageRank 等时使用该页面,并且noindex告诉 Google不要在搜索结果中显示该页面。

这个页面,profile.php,用于获取$_GET['id'] 并找到对应的注册用户。它显示了有关该用户的一些信息,但相关性不足以保证在搜索结果中显示,所以这就是我试图阻止谷歌索引它的原因。

这不是谷歌索引的唯一一个我想删除的页面。我还有一个 WordPress 博客,有很多类别页面、标签页面和存档页面我想删除,并且正在执行相同的程序来尝试删除它们。

有人可以解释如何从 Google 的搜索结果中删除页面,并且可能有一些标准可以帮助确定我不希望将哪些类型的页面编入索引。就我的 WordPress 博客而言,我真正想要索引的唯一页面是我的文章。我试图阻止的其他一切,谷歌运气不佳。

有人还可以解释为什么将不提供任何新内容或相关内容的页面编入索引是不好的,例如 WordPress 标签或类别的页面,这些页面显然永远不会收到来自 Google 的流量。

谢谢!