问题标签 [robots.txt]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - 仍然在 Google 中找到非索引文件 (?)
我的页面 /admin/login.asp 怎么可能在 Google 中通过查询“inurl:admin/login.asp”找到,而没有通过“site:www.domain.xx”查询?
我的 robots.txt 中有这行代码:
这在页面的 HTML 代码中:
有任何想法吗?
seo - 元标记与 robots.txt
使用元标记* 或 robots.txt 文件通知蜘蛛/爬虫包含或排除页面是否更好?
使用元标记和 robots.txt 是否有任何问题?
*例如:<#META name="robots" content="index, follow">
web-crawler - 如何收集没有内容的网站上的所有链接?
我想获取站点链接到的所有 URL(在同一域上),而无需使用 wget 之类的东西下载所有内容。有没有办法告诉 wget 只列出它会下载的链接?
如果有人可以提出更好的解决方案,我正在使用它的一些背景知识:我正在尝试构建一个 robots.txt 文件,该文件排除所有以 p[4-9].html 但 robots 结尾的文件.txt 不支持正则表达式。所以我试图获取所有链接,然后对它们运行正则表达式,然后将结果放入 robots.txt 中。有任何想法吗?
c# - 使用 C# 解析 robots.txt 文件中的各个行
使用应用程序来解析 robots.txt。我给自己写了一个从网络服务器中提取文件的方法,然后把输出扔到一个文本框中。我希望输出为文件中的每一行显示一行文本,就像您正常查看 robots.txt 时会出现的那样,但是我的文本框中的输出是所有没有的文本行回车或换行。所以我想我会很狡猾,为所有行制作一个 string[],制作一个 foreach 循环,一切都会好起来的。唉,那不起作用,所以我想我会尝试 System.Enviornment.Newline,但仍然无法正常工作。这是现在听起来的代码......我怎样才能改变这个,所以我得到robots.txt的所有单独的行,而不是一堆拼凑在一起的文本?
robots.txt - 如何禁止 robots.txt 中的特定页面
我正在我的网站上创建两个非常相似但用途不同的页面。一是感谢用户发表评论,二是鼓励用户订阅。
我不想要重复的内容,但我确实希望页面可用。我可以将站点地图设置为隐藏吗?我会在 robots.txt 文件中这样做吗?
禁止看起来像这样:
禁止:/wp-admin
我将如何自定义特定页面,例如:
robots.txt - Robots.txt 不允许某些文件夹名称
我想禁止机器人在 url 中的任何位置抓取名称为: 的任何文件夹this-folder
。
禁止的示例:
这是我的尝试:
这行得通吗?
robots.txt - 我如何禁止 robots.txt 中的文件夹,但某些文件除外?
我有一种情况,我想禁止抓取目录中的某些页面。该目录包含大量文件,但仍有一些文件需要编制索引。如果我需要单独禁止每个页面,我将拥有一个非常大的机器人文件。除了某些文件,有没有办法禁止 robots.txt 中的文件夹?
search-engine - ASP.NET MVC 中的 Robots.txt
我想弄清楚要添加到我的 robots.txt 文件中的内容?具体来说,命令是什么
在 robots.txt 文件中做什么?
编辑:另外,在使用 ASP.NET MVC 时,如何允许站点对其 /index 页面进行索引?
google-maps - Google Maps API 密钥和 robots.txt
编辑:我了解到我的错误与机器人文件无关。漠视。
我刚刚了解到,如果您有一个限制性 robots.txt 文件,Google 会阻止对 Maps API 的访问。我最近创建了一个带有“Dissallow:/”的机器人文件。现在我的网站不能再使用地图了。大鼠。
我删除了机器人文件,但我仍然无法使用地图。我还尝试创建一个完全许可的文件(“Dissallow:”),但这还没有解决问题。
谁能告诉我下一步?如果可能的话,我宁愿该网站不出现在 Google 中,因为它是一个临时网站。但我也不知道他们要多久才能重新扫描新的机器人文件。
wordpress - 机器人文本,wordpress - 块目录
在我的 robots.txt 我有这个:
lo 是一个包含我想要阻止的脚本的目录。
问题是“禁止:/ lo”阻止了我的帖子:
/孤独的汽车等/
我应该如何正确地阻止 lo 目录?
请看一下我的 robots.txt。也许还有其他我不知道的问题。
PS 在 webmastertools 上我明白了:这是对的吗?
http://www.site.com/wordpress-post/
允许 检测为目录;特定文件可能有不同的限制
不确定它是为将 wordpress 页面检测为目录而编写的!有什么意见吗?
谢谢!