问题标签 [robots.txt]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
seo - 为什么谷歌索引这个?
可能重复:
为什么谷歌索引这个?
在这个网页中:
http://www.alvolante.it/news/pompe_benzina_%E2%80%9Ctruccate%E2%80%9D_autostrada-308391044
有这张图片:
如果 robots.txt 中有“Disallow: /sites/”,为什么这个图片会被索引??
您可以看到从这个搜索索引:
.
PS robots.txt 在域alvolante.it和子域immagini.alvolante.it中
PPS 这不是我的网站...所以我不能使用谷歌网站管理员工具。
search-engine - 具有大量动态子域的站点的站点地图
我正在运行一个允许用户创建子域的站点。我想通过站点地图将这些用户子域提交给搜索引擎。但是,根据站点地图协议(和 Google 网站管理员工具),单个站点地图只能包含来自单个主机的 URL。
最好的方法是什么?
目前我有以下结构:
- 位于 example.com/sitemap-index.xml 的站点地图索引列出了每个子域的站点地图(但位于同一主机上)。
- 每个子域都有自己的站点地图,位于 example.com/sitemap-subdomain.xml(这样站点地图索引仅包含来自单个主机的 URL)。
- 子域的站点地图仅包含来自子域的 URL,即 subdomain.example.com/*
- 每个子域都有 subdomain.example.com/robots.txt 文件:
--
--
我认为这种方法符合站点地图协议,但是,Google 网站管理员工具会为子域站点地图提供错误:“URL 不允许。此 url 不允许用于此位置的站点地图。”
我还检查了其他网站是如何做到的。例如,Eventbrite 生成的站点地图包含来自多个子域的 URL(例如,参见http://www.eventbrite.com/events01.xml.gz)。但是,这不符合站点地图协议。
您推荐什么方法用于站点地图?
php - 如何阻止 Alexa 工具栏用户?
有什么想法可以阻止 Alexa 工具栏用户吗?我不想在我们处于测试阶段时出现在排名中......
我看到你可以阻止他们的搜索引擎
但我找不到任何关于如何让你自己脱离实际排名的文档。我早些时候读到有人试图给他们发电子邮件,但他们很生气。所以我想我是被迫阻止他们的?
任何更好的想法,或如何阻止他们访问的方式想法?
seo - 我可以在不公开的情况下允许(通过搜索引擎)对受限内容进行索引吗?
我有一个包含一些受限内容的网站。我希望我的网站出现在搜索结果中,但我不希望它公开。
有没有一种方法可以让爬虫爬过我的网站但阻止它们公开?
我找到的最接近的解决方案是Google First Click Free,但即使它也需要我第一次显示内容。
robots.txt - 如何禁止使用 robots.txt 访问不带参数调用的 url
我想拒绝网络机器人访问这样的网址:
允许这种 url 代替:
http://www.example.com/export?foo=value1
蜘蛛机器人在没有查询字符串的情况下调用/export
,导致我的日志出现很多错误。
有没有办法在 robots.txt 上管理这个过滤器?
windows-services - Windows Server 重定向问题
我正在处理一些使用 Windows 服务器的客户端,因此不支持 .htaccess 文件。这不是什么大不了的事,但我担心的是:
我在 .htaccess 文件中设置了一条规则,将网站的非 www 版本重定向到 www 版本。这使 URL 看起来更好,并防止重复的内容被索引。
但是,似乎没有一种简单的方法可以在 Windows 服务器上执行此操作。我已经阅读了有关设置 web.config 文件的教程,但是我的 Windows 服务器经验非常有限,而且很多时候我只能通过 FTP 访问该站点(没有服务器访问权限)。
关于我可以使用的快速且相当简单的解决方案的任何想法?
web-crawler - 禁止爬取所有目录的简明方法,但有例外
有没有写一个robots.txt文件,禁止索引除指定目录以外的所有内容?
目前disallow是唯一有效的方式,这意味着我需要明确指定哪些目录我不排除在外 - 但是我宁愿不向全世界宣布这些目录......
有没有人解决过这个问题?
robots.txt - 如何通过 robots.txt 排除特定文件夹
我想从搜索引擎的索引中排除任何文件夹中名为“ajax”的所有子文件夹。
例子:
这可以通过 robots.txt 实现吗?
artificial-intelligence - 哪种是编写网络机器人的最佳编程语言?
我想知道哪种编程语言提供了大量的库来编写网络机器人?类似于抓取网页以获取数据。假设我想获取 weather.yahoo.com 网站的天气。
AI桌面机器人的答案也一样吗?
python - Flask 中的静态文件 - robots.txt、sitemap.xml (mod_wsgi)
是否有任何巧妙的解决方案可以将静态文件存储在 Flask 的应用程序根目录中。robots.txt 和 sitemap.xml 预计会在 / 中找到,所以我的想法是为它们创建路由:
一定有更方便的东西:)