问题标签 [robots.txt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
12968 浏览

asp.net - 如何以及在何处将 robots.txt 文件添加到 ASP.net Web 应用程序?

我正在使用带有 C# 的 ASP.net。

为了提高我的网站在 Google 中的可搜索性,我搜索并发现我可以使用我的 robots.txt 来做到这一点,但我真的不知道如何创建它以及我可以在哪里放置我的标签,例如ASP.netC#在我的 txt 文件中。

另外,请让我知道将其包含在我的应用程序中的必要步骤。

0 投票
4 回答
73 浏览

drupal - 我可以告诉网站爬虫访问某个页面吗?

我有这个围绕文档数据库的drupal 网站。按照设计,您只能通过搜索站点来找到这些文档。但是我希望所有结果都被 Googlebot 和其他爬虫索引,所以我在想,如果我创建一个列出所有文档的页面,然后告诉机器人访问该页面以索引我的所有文档..?

这是可能的,还是有更好的方法来做到这一点?

0 投票
2 回答
171 浏览

robots.txt - robots.txt 文件不允许选项

我想阻止机器人访问以 . 结尾的 URL /new。我正在修改我的robots.txt文件如下:

这是用于禁止访问所有 url 终止的正确模式/new吗?

0 投票
3 回答
7908 浏览

java - robots.txt 解析器 java

我想知道如何在 java 中解析 robots.txt。

是否已经有任何代码?

0 投票
2 回答
101 浏览

localization - 如何最大限度地提高多语种网站的知名度?

我被告知要了解如何最大限度地提高即将推出的 Web 应用程序的可见性,该应用程序最初以多种语言提供,特别是法语和英语。

我有兴趣了解机器人(如 google bot)如何抓取支持多种语言的网站。

关于机器人和索引引擎的行为,我有几个问题:

  • 网站应该在 URL 中指定语言吗?
  • 如果语言是通过 cookie 设置的(假设一个可以更改语言的链接),机器人会用两种语言抓取网站吗?
  • 我应该为每种语言使用不同的域吗?
  • 什么元标记可以用来帮助机器人理解网站的语言?
  • 我错过了我应该注意的任何事情吗?
0 投票
1 回答
529 浏览

java - 用 Java 抓取网站

我要做的是获取 URL 列表并下载每个 URL 的内容(用于索引)。最大的问题是,如果我遇到一个类似于 facebook 事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该 URL。似乎 robots.txt 文件就是为此目的而存在的。我调查了heritrix,但这似乎比我需要的要多。是否有更简单的工具可以提供有关 robots.txt 的信息并相应地抓取网站?

(另外,我不需要跟踪其他链接并建立深度索引,我只需要索引列表中的各个页面。)

0 投票
1 回答
707 浏览

seo - 在 robots.txt 中指定变量

我的 URL 结构设置为两个平行(都指向同一个地方):

  • www.example.com/subname
  • www.example.com/123

问题是,蜘蛛正在爬进类似的东西:

  • www.example.com/subname/default_media_function
  • www.example.com/subname/map_function

请注意,名称“子名称”代表我网站上的数千个不同页面,它们都具有相同的功能。

他们抛出错误,因为这些链接严格用于 JSON 或 AJAX 目的,而不是实际链接。我想阻止他们访问这些页面,但是如果 URL 包含变量,我该怎么做?

这可以在 robots.txt 中使用吗?

0 投票
1 回答
165 浏览

.htaccess - 禁止动态 htaccess 重写 url

我如何禁止 robots.txt 对页面进行索引

我试过

但它说,我不能在这里使用通配符 (*)。

0 投票
1 回答
490 浏览

web-crawler - robots.txt 文件中的允许和禁止

我想禁止 SE 机器人访问我网站上的所有文件和文件夹,但其中的特殊文件夹和文件除外。我可以在 robots.txt 文件中使用这些行吗?

这样对吗?

0 投票
5 回答
132 浏览

search - 删除 Robot.txt 后如何重新获得索引

在构建 Webiste 时,我在服务器上创建了一个 robots.txt,以防止尚未完成的应用程序进入 Google 的索引...

现在我已经完成了网站,我删除了 robots.txt,我希望我的网站会出现在 Google 上,因为 robots.txt 已经消失了!

但这并没有发生!我现在已经删除了 robots.txt 大约 3 到 4 周,但该网站仍然没有出现 :(

在删除robot.txt 后,是否需要做些什么才能再次进入搜索引擎的索引?或者这不是假设自然发生的吗?

或者这是我不够耐心的情况?