问题标签 [robots.txt]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1372 问题

0 投票

1 回答

140 浏览

seo - 为什么谷歌索引这个？

可能重复：
为什么谷歌索引这个？

在这个网页中：

http://www.alvolante.it/news/pompe_benzina_%E2%80%9Ctruccate%E2%80%9D_autostrada-308391044

有这张图片：

http://immagini.alvolante.it/sites/default/files/imagecache/anteprima_100/images/rifornimento_benzina.jpg

如果 robots.txt 中有“Disallow: /sites/”，为什么这个图片会被索引？？

您可以看到从这个搜索索引：

http://www.google.it/images?q=rifornimento+benzina&um=1&ie=UTF-8&source=og&sa=N&hl=it&tab=wi&biw=1280&bih=712

.

PS robots.txt 在域alvolante.it和子域immagini.alvolante.it中

PPS 这不是我的网站...所以我不能使用谷歌网站管理员工具。

seo search-engine web-crawler robots.txt

2010-10-06T19:31:07.157

0 投票

3 回答

7873 浏览

search-engine - 具有大量动态子域的站点的站点地图

我正在运行一个允许用户创建子域的站点。我想通过站点地图将这些用户子域提交给搜索引擎。但是，根据站点地图协议（和 Google 网站管理员工具），单个站点地图只能包含来自单个主机的 URL。

最好的方法是什么？

目前我有以下结构：

位于 example.com/sitemap-index.xml 的站点地图索引列出了每个子域的站点地图（但位于同一主机上）。
每个子域都有自己的站点地图，位于 example.com/sitemap-subdomain.xml（这样站点地图索引仅包含来自单个主机的 URL）。
子域的站点地图仅包含来自子域的 URL，即 subdomain.example.com/*
每个子域都有 subdomain.example.com/robots.txt 文件：

--

--

我认为这种方法符合站点地图协议，但是，Google 网站管理员工具会为子域站点地图提供错误：“URL 不允许。此 url 不允许用于此位置的站点地图。”

我还检查了其他网站是如何做到的。例如，Eventbrite 生成的站点地图包含来自多个子域的 URL（例如，参见http://www.eventbrite.com/events01.xml.gz）。但是，这不符合站点地图协议。

您推荐什么方法用于站点地图？

search-engine sitemap robots.txt google-search-console

2010-10-07T10:11:59.190

0 投票

2 回答

1382 浏览

php - 如何阻止 Alexa 工具栏用户？

有什么想法可以阻止 Alexa 工具栏用户吗？我不想在我们处于测试阶段时出现在排名中......

我看到你可以阻止他们的搜索引擎

但我找不到任何关于如何让你自己脱离实际排名的文档。我早些时候读到有人试图给他们发电子邮件，但他们很生气。所以我想我是被迫阻止他们的？

任何更好的想法，或如何阻止他们访问的方式想法？

php .htaccess mod-rewrite robots.txt alexa

2010-10-14T13:57:19.603

0 投票

4 回答

2136 浏览

seo - 我可以在不公开的情况下允许（通过搜索引擎）对受限内容进行索引吗？

我有一个包含一些受限内容的网站。我希望我的网站出现在搜索结果中，但我不希望它公开。

有没有一种方法可以让爬虫爬过我的网站但阻止它们公开？

我找到的最接近的解决方案是Google First Click Free，但即使它也需要我第一次显示内容。

seo web-crawler robots.txt

2010-10-18T05:43:51.503

0 投票

1 回答

176 浏览

robots.txt - 如何禁止使用 robots.txt 访问不带参数调用的 url

我想拒绝网络机器人访问这样的网址：

http://www.example.com/export

允许这种 url 代替：

http://www.example.com/export?foo=value1

蜘蛛机器人在没有查询字符串的情况下调用/export，导致我的日志出现很多错误。
有没有办法在 robots.txt 上管理这个过滤器？

robots.txt web-crawler

2010-10-18T19:54:37.310

0 投票

2 回答

284 浏览

windows-services - Windows Server 重定向问题

我正在处理一些使用 Windows 服务器的客户端，因此不支持 .htaccess 文件。这不是什么大不了的事，但我担心的是：

我在 .htaccess 文件中设置了一条规则，将网站的非 www 版本重定向到 www 版本。这使 URL 看起来更好，并防止重复的内容被索引。

但是，似乎没有一种简单的方法可以在 Windows 服务器上执行此操作。我已经阅读了有关设置 web.config 文件的教程，但是我的 Windows 服务器经验非常有限，而且很多时候我只能通过 FTP 访问该站点（没有服务器访问权限）。

关于我可以使用的快速且相当简单的解决方案的任何想法？

windows-services robots.txt

2010-11-09T19:56:38.593

0 投票

1 回答

72 浏览

web-crawler - 禁止爬取所有目录的简明方法，但有例外

有没有写一个robots.txt文件，禁止索引除指定目录以外的所有内容？

目前disallow是唯一有效的方式，这意味着我需要明确指定哪些目录我不排除在外 - 但是我宁愿不向全世界宣布这些目录......

有没有人解决过这个问题？

web-crawler robots.txt

2010-11-09T21:17:00.090

0 投票

1 回答

592 浏览

robots.txt - 如何通过 robots.txt 排除特定文件夹

我想从搜索引擎的索引中排除任何文件夹中名为“ajax”的所有子文件夹。

例子：

这可以通过 robots.txt 实现吗？

robots.txt

2010-11-13T17:46:58.157

0 投票

3 回答

8755 浏览

artificial-intelligence - 哪种是编写网络机器人的最佳编程语言？

我想知道哪种编程语言提供了大量的库来编写网络机器人？类似于抓取网页以获取数据。假设我想获取 weather.yahoo.com 网站的天气。

AI桌面机器人的答案也一样吗？

artificial-intelligence robots.txt bots

2010-11-18T02:15:39.783

0 投票

10 回答

47852 浏览

python - Flask 中的静态文件 - robots.txt、sitemap.xml (mod_wsgi)

是否有任何巧妙的解决方案可以将静态文件存储在 Flask 的应用程序根目录中。robots.txt 和 sitemap.xml 预计会在 / 中找到，所以我的想法是为它们创建路由：

一定有更方便的东西:)

python flask static mod-wsgi robots.txt

2010-11-21T19:26:59.737

1 2 3 4 5 6 7 8 9 10