问题标签 [robots.txt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
140 浏览

seo - 为什么谷歌索引这个?

可能重复:
为什么谷歌索引这个?

在这个网页中:

http://www.alvolante.it/news/pompe_benzina_%E2%80%9Ctruccate%E2%80%9D_autostrada-308391044

有这张图片:

http://immagini.alvolante.it/sites/default/files/imagecache/anteprima_100/images/rifornimento_benzina.jpg

如果 robots.txt 中有“Disallow: /sites/”,为什么这个图片会被索引??

您可以看到从这个搜索索引:

http://www.google.it/images?q=rifornimento+benzina&um=1&ie=UTF-8&source=og&sa=N&hl=it&tab=wi&biw=1280&bih=712

.

PS robots.txt 在域alvolante.it和子域immagini.alvolante.it中

PPS 这不是我的网站...所以我不能使用谷歌网站管理员工具。

0 投票
3 回答
7873 浏览

search-engine - 具有大量动态子域的站点的站点地图

我正在运行一个允许用户创建子域的站点。我想通过站点地图将这些用户子域提交给搜索引擎。但是,根据站点地图协议(和 Google 网站管理员工具),单个站点地图只能包含来自单个主机的 URL。

最好的方法是什么?

目前我有以下结构:

  1. 位于 example.com/sitemap-index.xml 的站点地图索引列出了每个子域的站点地图(但位于同一主机上)。
  2. 每个子域都有自己的站点地图,位于 example.com/sitemap-subdomain.xml(这样站点地图索引仅包含来自单个主机的 URL)。
  3. 子域的站点地图仅包含来自子域的 URL,即 subdomain.example.com/*
  4. 每个子域都有 subdomain.example.com/robots.txt 文件:

--

--

我认为这种方法符合站点地图协议,但是,Google 网站管理员工具会为子域站点地图提供错误:“URL 不允许。此 url 不允许用于此位置的站点地图。”

我还检查了其他网站是如何做到的。例如,Eventbrite 生成的站点地图包含来自多个子域的 URL(例如,参见http://www.eventbrite.com/events01.xml.gz)。但是,这不符合站点地图协议。

您推荐什么方法用于站点地图?

0 投票
2 回答
1382 浏览

php - 如何阻止 Alexa 工具栏用户?

有什么想法可以阻止 Alexa 工具栏用户吗?我不想在我们处于测试阶段时出现在排名中......

我看到你可以阻止他们的搜索引擎

但我找不到任何关于如何让你自己脱离实际排名的文档。我早些时候读到有人试图给他们发电子邮件,但他们很生气。所以我想我是被迫阻止他们的?

任何更好的想法,或如何阻止他们访问的方式想法?

0 投票
4 回答
2136 浏览

seo - 我可以在不公开的情况下允许(通过搜索引擎)对受限内容进行索引吗?

我有一个包含一些受限内容的网站。我希望我的网站出现在搜索结果中,但我不希望它公开。

有没有一种方法可以让爬虫爬过我的网站但阻止它们公开?

我找到的最接近的解决方案是Google First Click Free,但即使它也需要我第一次显示内容。

0 投票
1 回答
176 浏览

robots.txt - 如何禁止使用 robots.txt 访问不带参数调用的 url

我想拒绝网络机器人访问这样的网址:

http://www.example.com/export

允许这种 url 代替:

http://www.example.com/export?foo=value1

蜘蛛机器人在没有查询字符串的情况下调用/export,导致我的日志出现很多错误。
有没有办法在 robots.txt 上管理这个过滤器?

0 投票
2 回答
284 浏览

windows-services - Windows Server 重定向问题

我正在处理一些使用 Windows 服务器的客户端,因此不支持 .htaccess 文件。这不是什么大不了的事,但我担心的是:

我在 .htaccess 文件中设置了一条规则,将网站的非 www 版本重定向到 www 版本。这使 URL 看起来更好,并防止重复的内容被索引。

但是,似乎没有一种简单的方法可以在 Windows 服务器上执行此操作。我已经阅读了有关设置 web.config 文件的教程,但是我的 Windows 服务器经验非常有限,而且很多时候我只能通过 FTP 访问该站点(没有服务器访问权限)。

关于我可以使用的快速且相当简单的解决方案的任何想法?

0 投票
1 回答
72 浏览

web-crawler - 禁止爬取所有目录的简明方法,但有例外

有没有写一个robots.txt文件,禁止索引除指定目录以外的所有内容?

目前disallow是唯一有效的方式,这意味着我需要明确指定哪些目录我不排除在外 - 但是我宁愿不向全世界宣布这些目录......

有没有人解决过这个问题?

0 投票
1 回答
592 浏览

robots.txt - 如何通过 robots.txt 排除特定文件夹

我想从搜索引擎的索引中排除任何文件夹中名为“ajax”的所有子文件夹。

例子:

这可以通过 robots.txt 实现吗?

0 投票
3 回答
8755 浏览

artificial-intelligence - 哪种是编写网络机器人的最佳编程语言?

我想知道哪种编程语言提供了大量的库来编写网络机器人?类似于抓取网页以获取数据。假设我想获取 weather.yahoo.com 网站的天气。

AI桌面机器人的答案也一样吗?

0 投票
10 回答
47852 浏览

python - Flask 中的静态文件 - robots.txt、sitemap.xml (mod_wsgi)

是否有任何巧妙的解决方案可以将静态文件存储在 Flask 的应用程序根目录中。robots.txt 和 sitemap.xml 预计会在 / 中找到,所以我的想法是为它们创建路由:

一定有更方便的东西:)