问题标签 [robots.txt]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1372 问题

0 投票

2 回答

219 浏览

search - 仍然在 Google 中找到非索引文件 (?)

我的页面 /admin/login.asp 怎么可能在 Google 中通过查询“inurl:admin/login.asp”找到，而没有通过“site:www.domain.xx”查询？

我的 robots.txt 中有这行代码：

这在页面的 HTML 代码中：

有任何想法吗？

2010-07-26T08:50:15.620

0 投票

11 回答

19050 浏览

seo - 元标记与 robots.txt

使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好？
使用元标记和 robots.txt 是否有任何问题？

*例如：<#META name="robots" content="index, follow">

seo robots.txt meta-tags

2010-07-27T21:39:03.140

0 投票

1 回答

428 浏览

web-crawler - 如何收集没有内容的网站上的所有链接？

我想获取站点链接到的所有 URL（在同一域上），而无需使用 wget 之类的东西下载所有内容。有没有办法告诉 wget 只列出它会下载的链接？

如果有人可以提出更好的解决方案，我正在使用它的一些背景知识：我正在尝试构建一个 robots.txt 文件，该文件排除所有以 p[4-9].html 但 robots 结尾的文件.txt 不支持正则表达式。所以我试图获取所有链接，然后对它们运行正则表达式，然后将结果放入 robots.txt 中。有任何想法吗？

web-crawler robots.txt

2010-08-04T13:13:02.170

0 投票

4 回答

2764 浏览

c# - 使用 C# 解析 robots.txt 文件中的各个行

使用应用程序来解析 robots.txt。我给自己写了一个从网络服务器中提取文件的方法，然后把输出扔到一个文本框中。我希望输出为文件中的每一行显示一行文本，就像您正常查看 robots.txt 时会出现的那样，但是我的文本框中的输出是所有没有的文本行回车或换行。所以我想我会很狡猾，为所有行制作一个 string[]，制作一个 foreach 循环，一切都会好起来的。唉，那不起作用，所以我想我会尝试 System.Enviornment.Newline，但仍然无法正常工作。这是现在听起来的代码......我怎样才能改变这个，所以我得到robots.txt的所有单独的行，而不是一堆拼凑在一起的文本？

c#webclient robots.txt

2010-08-06T08:54:27.593

0 投票

4 回答

51569 浏览

robots.txt - 如何禁止 robots.txt 中的特定页面

我正在我的网站上创建两个非常相似但用途不同的页面。一是感谢用户发表评论，二是鼓励用户订阅。

我不想要重复的内容，但我确实希望页面可用。我可以将站点地图设置为隐藏吗？我会在 robots.txt 文件中这样做吗？

禁止看起来像这样：

禁止：/wp-admin

我将如何自定义特定页面，例如：

http://sweatingthebigstuff.com/thank-you-for-commenting

robots.txt

2010-08-15T06:29:50.520

0 投票

1 回答

18571 浏览

robots.txt - Robots.txt 不允许某些文件夹名称

我想禁止机器人在 url 中的任何位置抓取名称为：的任何文件夹this-folder。

禁止的示例：

这是我的尝试：

这行得通吗？

robots.txt

2010-08-17T11:01:08.893

0 投票

2 回答

1360 浏览

robots.txt - 我如何禁止 robots.txt 中的文件夹，但某些文件除外？

我有一种情况，我想禁止抓取目录中的某些页面。该目录包含大量文件，但仍有一些文件需要编制索引。如果我需要单独禁止每个页面，我将拥有一个非常大的机器人文件。除了某些文件，有没有办法禁止 robots.txt 中的文件夹？

robots.txt

2010-08-22T20:54:13.163

0 投票

0 回答

828 浏览

search-engine - ASP.NET MVC 中的 Robots.txt

我想弄清楚要添加到我的 robots.txt 文件中的内容？具体来说，命令是什么

在 robots.txt 文件中做什么？

编辑：另外，在使用 ASP.NET MVC 时，如何允许站点对其 /index 页面进行索引？

search-engine command robots.txt

2010-08-24T09:41:43.327

0 投票

1 回答

992 浏览

google-maps - Google Maps API 密钥和 robots.txt

编辑：我了解到我的错误与机器人文件无关。漠视。

我刚刚了解到，如果您有一个限制性 robots.txt 文件，Google 会阻止对 Maps API 的访问。我最近创建了一个带有“Dissallow：/”的机器人文件。现在我的网站不能再使用地图了。大鼠。

我删除了机器人文件，但我仍然无法使用地图。我还尝试创建一个完全许可的文件（“Dissallow：”），但这还没有解决问题。

谁能告诉我下一步？如果可能的话，我宁愿该网站不出现在 Google 中，因为它是一个临时网站。但我也不知道他们要多久才能重新扫描新的机器人文件。

google-maps robots.txt

2010-08-25T19:15:43.763

0 投票

3 回答

483 浏览

wordpress - 机器人文本，wordpress - 块目录

在我的 robots.txt 我有这个：

lo 是一个包含我想要阻止的脚本的目录。

问题是“禁止：/ lo”阻止了我的帖子：

/孤独的汽车等/

我应该如何正确地阻止 lo 目录？

请看一下我的 robots.txt。也许还有其他我不知道的问题。

PS 在 webmastertools 上我明白了：这是对的吗？

http://www.site.com/wordpress-post/
允许检测为目录；特定文件可能有不同的限制

不确定它是为将 wordpress 页面检测为目录而编写的！有什么意见吗？

谢谢！

wordpress robots.txt

2010-08-26T11:52:57.947

1 2 3 4 5 6 7 8 9 10

问题标签 [robots.txt]

Reference