问题标签 [robots.txt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
219 浏览

search - 仍然在 Google 中找到非索引文件 (?)

我的页面 /admin/login.asp 怎么可能在 Google 中通过查询“inurl:admin/login.asp”找到,而没有通过“site:www.domain.xx”查询?

我的 robots.txt 中有这行代码:

这在页面的 HTML 代码中:

有任何想法吗?

0 投票
11 回答
19050 浏览

seo - 元标记与 robots.txt

  1. 使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好?

  2. 使用元标记和 robots.txt 是否有任何问题?

*例如:<#META name="robots" content="index, follow">

0 投票
1 回答
428 浏览

web-crawler - 如何收集没有内容的网站上的所有链接?

我想获取站点链接到的所有 URL(在同一域上),而无需使用 wget 之类的东西下载所有内容。有没有办法告诉 wget 只列出它会下载的链接?

如果有人可以提出更好的解决方案,我正在使用它的一些背景知识:我正在尝试构建一个 robots.txt 文件,该文件排除所有以 p[4-9].html 但 robots 结尾的文件.txt 不支持正则表达式。所以我试图获取所有链接,然后对它们运行正则表达式,然后将结果放入 robots.txt 中。有任何想法吗?

0 投票
4 回答
2764 浏览

c# - 使用 C# 解析 robots.txt 文件中的各个行

使用应用程序来解析 robots.txt。我给自己写了一个从网络服务器中提取文件的方法,然后把输出扔到一个文本框中。我希望输出为文件中的每一行显示一行文本,就像您正常查看 robots.txt 时会出现的那样,但是我的文本框中的输出是所有没有的文本行回车或换行。所以我想我会很狡猾,为所有行制作一个 string[],制作一个 foreach 循环,一切都会好起来的。唉,那不起作用,所以我想我会尝试 System.Enviornment.Newline,但仍然无法正常工作。这是现在听起来的代码......我怎样才能改变这个,所以我得到robots.txt的所有单独的行,而不是一堆拼凑在一起的文本?

0 投票
4 回答
51569 浏览

robots.txt - 如何禁止 robots.txt 中的特定页面

我正在我的网站上创建两个非常相似但用途不同的页面。一是感谢用户发表评论,二是鼓励用户订阅。

我不想要重复的内容,但我确实希望页面可用。我可以将站点地图设置为隐藏吗?我会在 robots.txt 文件中这样做吗?

禁止看起来像这样:

禁止:/wp-admin

我将如何自定义特定页面,例如:

http://sweatingthebigstuff.com/thank-you-for-commenting

0 投票
1 回答
18571 浏览

robots.txt - Robots.txt 不允许某些文件夹名称

我想禁止机器人在 url 中的任何位置抓取名称为: 的任何文件夹this-folder

禁止的示例:

这是我的尝试:

这行得通吗?

0 投票
2 回答
1360 浏览

robots.txt - 我如何禁止 robots.txt 中的文件夹,但某些文件除外?

我有一种情况,我想禁止抓取目录中的某些页面。该目录包含大量文件,但仍有一些文件需要编制索引。如果我需要单独禁止每个页面,我将拥有一个非常大的机器人文件。除了某些文件,有没有办法禁止 robots.txt 中的文件夹?

0 投票
0 回答
828 浏览

search-engine - ASP.NET MVC 中的 Robots.txt

我想弄清楚要添加到我的 robots.txt 文件中的内容?具体来说,命令是什么

在 robots.txt 文件中做什么?

编辑:另外,在使用 ASP.NET MVC 时,如何允许站点对其 /index 页面进行索引?

0 投票
1 回答
992 浏览

google-maps - Google Maps API 密钥和 robots.txt

编辑:我了解到我的错误与机器人文件无关。漠视。

我刚刚了解到,如果您有一个限制性 robots.txt 文件,Google 会阻止对 Maps API 的访问。我最近创建了一个带有“Dissallow:/”的机器人文件。现在我的网站不能再使用地图了。大鼠。

我删除了机器人文件,但我仍然无法使用地图。我还尝试创建一个完全许可的文件(“Dissallow:”),但这还没有解决问题。

谁能告诉我下一步?如果可能的话,我宁愿该网站不出现在 Google 中,因为它是一个临时网站。但我也不知道他们要多久才能重新扫描新的机器人文件。

0 投票
3 回答
483 浏览

wordpress - 机器人文本,wordpress - 块目录

在我的 robots.txt 我有这个:

lo 是一个包含我想要阻止的脚本的目录。

问题是“禁止:/ lo”阻止了我的帖子:

/孤独的汽车等/

我应该如何正确地阻止 lo 目录?

请看一下我的 robots.txt。也许还有其他我不知道的问题。

PS 在 webmastertools 上我明白了:这是对的吗?

http://www.site.com/wordpress-post/
允许 检测为目录;特定文件可能有不同的限制

不确定它是为将 wordpress 页面检测为目录而编写的!有什么意见吗?

谢谢!