问题标签 [robots.txt]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1372 问题

0 投票

3 回答

12968 浏览

asp.net - 如何以及在何处将 robots.txt 文件添加到 ASP.net Web 应用程序？

我正在使用带有 C# 的 ASP.net。

为了提高我的网站在 Google 中的可搜索性，我搜索并发现我可以使用我的 robots.txt 来做到这一点，但我真的不知道如何创建它以及我可以在哪里放置我的标签，例如ASP.net，C#在我的 txt 文件中。

另外，请让我知道将其包含在我的应用程序中的必要步骤。

asp.net robots.txt

2010-06-13T09:19:19.447

0 投票

4 回答

73 浏览

drupal - 我可以告诉网站爬虫访问某个页面吗？

我有这个围绕文档数据库的drupal 网站。按照设计，您只能通过搜索站点来找到这些文档。但是我希望所有结果都被 Googlebot 和其他爬虫索引，所以我在想，如果我创建一个列出所有文档的页面，然后告诉机器人访问该页面以索引我的所有文档..？

这是可能的，还是有更好的方法来做到这一点？

2010-06-14T13:49:46.163

0 投票

2 回答

171 浏览

robots.txt - robots.txt 文件不允许选项

我想阻止机器人访问以 . 结尾的 URL /new。我正在修改我的robots.txt文件如下：

这是用于禁止访问所有 url 终止的正确模式/new吗？

robots.txt

2010-06-25T10:39:38.643

0 投票

3 回答

7908 浏览

java - robots.txt 解析器 java

我想知道如何在 java 中解析 robots.txt。

是否已经有任何代码？

java parsing robots.txt

2010-06-29T13:24:46.680

0 投票

2 回答

101 浏览

localization - 如何最大限度地提高多语种网站的知名度？

我被告知要了解如何最大限度地提高即将推出的 Web 应用程序的可见性，该应用程序最初以多种语言提供，特别是法语和英语。

我有兴趣了解机器人（如 google bot）如何抓取支持多种语言的网站。

关于机器人和索引引擎的行为，我有几个问题：

网站应该在 URL 中指定语言吗？
如果语言是通过 cookie 设置的（假设一个可以更改语言的链接），机器人会用两种语言抓取网站吗？
我应该为每种语言使用不同的域吗？
什么元标记可以用来帮助机器人理解网站的语言？
我错过了我应该注意的任何事情吗？

localization search-engine robots.txt

2010-06-29T15:27:42.137

0 投票

1 回答

529 浏览

java - 用 Java 抓取网站

我要做的是获取 URL 列表并下载每个 URL 的内容（用于索引）。最大的问题是，如果我遇到一个类似于 facebook 事件的链接，它只是重定向到登录页面，我需要能够检测并跳过该 URL。似乎 robots.txt 文件就是为此目的而存在的。我调查了heritrix，但这似乎比我需要的要多。是否有更简单的工具可以提供有关 robots.txt 的信息并相应地抓取网站？

（另外，我不需要跟踪其他链接并建立深度索引，我只需要索引列表中的各个页面。）

java screen-scraping robots.txt

2010-07-07T18:10:11.553

0 投票

1 回答

707 浏览

seo - 在 robots.txt 中指定变量

我的 URL 结构设置为两个平行（都指向同一个地方）：

www.example.com/subname
www.example.com/123

问题是，蜘蛛正在爬进类似的东西：

www.example.com/subname/default_media_function
www.example.com/subname/map_function

请注意，名称“子名称”代表我网站上的数千个不同页面，它们都具有相同的功能。

他们抛出错误，因为这些链接严格用于 JSON 或 AJAX 目的，而不是实际链接。我想阻止他们访问这些页面，但是如果 URL 包含变量，我该怎么做？

这可以在 robots.txt 中使用吗？

seo robots.txt

2010-07-13T14:44:11.403

0 投票

1 回答

165 浏览

.htaccess - 禁止动态 htaccess 重写 url

我如何禁止 robots.txt 对页面进行索引

我试过

但它说，我不能在这里使用通配符 (*)。

.htaccess robots.txt

2010-07-22T09:43:41.180

0 投票

1 回答

490 浏览

web-crawler - robots.txt 文件中的允许和禁止

我想禁止 SE 机器人访问我网站上的所有文件和文件夹，但其中的特殊文件夹和文件除外。我可以在 robots.txt 文件中使用这些行吗？

这样对吗？

web-crawler robots.txt search-engine-bots

2010-07-24T06:30:24.397

0 投票

5 回答

132 浏览

search - 删除 Robot.txt 后如何重新获得索引

在构建 Webiste 时，我在服务器上创建了一个 robots.txt，以防止尚未完成的应用程序进入 Google 的索引...

现在我已经完成了网站，我删除了 robots.txt，我希望我的网站会出现在 Google 上，因为 robots.txt 已经消失了！

但这并没有发生！我现在已经删除了 robots.txt 大约 3 到 4 周，但该网站仍然没有出现 :(

在删除robot.txt 后，是否需要做些什么才能再次进入搜索引擎的索引？或者这不是假设自然发生的吗？

或者这是我不够耐心的情况？

search robots.txt

2010-07-25T16:31:18.140

1 2 3 4 5 6 7 8 9 10

问题标签 [robots.txt]

Reference