问题标签 [googlebot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
seo - 如何向 Googlebot 提供照片库更新?
网站上的照片库更新后如何设置重定向?
一些照片已被删除,因此 Googlebot 现在得到 404。但是那些老照片是无可替代的。同一主题中有一些新的、相似的照片,但并不相同。
我应该将请求重定向到某个地方吗?例如,日志被对 的请求淹没/images/some.jpg
,因此将其重定向到(在哪里?)。
html - 向搜索引擎以外的所有人展示灯箱?
有没有什么我可以在页面加载时向所有用户显示灯箱但不向 Google 显示的?请注意,我的技能是非常基本的 HTML,因此任何回复都将不胜感激。
编辑:我刚刚意识到搜索引擎无论如何都不会加载javascript,对吧?这涉及到我的第二个问题:如何在页面加载时加载灯箱?
googlebot - Googlebot 和 FAMUOS $_SERVER['HTTP_ACCEPT_LANGUAGE']
我$_SERVER['HTTP_ACCEPT_LANGUAGE']
在我的网站上做过,那里有两个语言 PL 和 EN。
我真的没有怀疑 Google 会以这种方式将我的网站(即 TITLE 和 DESC)从 PL 重新索引到 EN。
它不应该使用 PL,因为它正在爬取波兰域,hmmmmrrrr 无法理解?
无论如何,我可以检测到 googlebot 并再次将它们设置为 PL
但它不会是 cloacking 或 smthing 吗?
任何人都可以告诉我什么是解决问题的好方法,所以我和谷歌会很高兴吗?
asp.net - 让搜索机器人不抓取已删除的页面?
目前,我们正在使用 Kentico CMS 作为网站,我们曾经有一个名为 pages/page1.aspx 的页面。我们删除了该页面,但每天 google、bing 和 yahoo sarch 机器人都会尝试阅读该页面。因为页面不存在,CMS 会抛出以下错误(在日志中)
当我们收到太多这些错误时,整个站点就会崩溃(必须清除 .Net 临时文件并重新启动应用程序池)。基本上我可以转到一个不存在的页面,多次点击刷新并关闭该站点。非常糟糕。但是,首先,我怎样才能让机器人不尝试访问此页面?
提前致谢。
django - 在 Django 中,为搜索引擎蜘蛛禁用 @login_required
我正在寻找一种干净的方法让搜索引擎蜘蛛绕过@login_required,查看通常需要登录用户的页面。我可以编写中间件来自动将搜索引擎记录到一个虚拟帐户中,但这并不完全是我所说的干净。对更好的解决方案有什么建议吗?谢谢。
jquery - jQuery 在 /a 目录上的网站管理员工具中导致 404 错误
Googlebot 似乎在我的 jQuery 中爬行并创建以 /a 结尾但不存在的链接,然后将它们报告为 404 错误。
该站点在 W3C 验证绿色。
"/a" 来自 jQuery 本身。 编辑:以下是 jQuery v1.5 和 1.5.2 中的一行代码(我在里面查看的仅有的两个)
现在,我在它失控之前在 htaccess 中重定向它......
有谁知道 Googlebot 为什么/如何进入 jQuery?
编辑:
我已经用 robots.txt 文件阻止了 jQuery 文件,但我真的没想到 Googlebot 会进入外部 JavaScript 文件。
编辑2:
以下是 Google 员工 JohnMu 在我在 Google Groups 开始的主题中对此问题的回应。看来我还是要做301。
约翰穆
谷歌员工
凌晨 4 点 39 分
嗨,大家好
对此只是一个简短的说明——是的,我们正在为许多来自 jQuery JavaScript 的站点选择“/a”链接。但是,这通常不是问题,如果我们将“/a”视为 404,那么这对我们来说没问题。与其他 404-URL 一样,我们会将其列为网站管理员工具中的抓取错误,但同样,这不会成为抓取、索引或排名的问题。如果您想确保它不会在网站管理员工具中触发抓取错误,那么我建议您只将该 URL 301 重定向到您的主页(禁止该 URL 也会将其作为抓取错误显示 - 它将被列为robots.txt 不允许的 URL)。
我还建议不要明确禁止抓取 jQuery 文件。虽然我们通常不会自行为其编制索引,但我们可能需要访问它才能为您的网站生成良好的即时预览。
所以总结一下:如果您在网站管理员工具的抓取错误中看到“/a”,您可以就这样离开它,它不会造成任何问题。如果您想将其删除,您可以执行 301 重定向到您的主页。
干杯
约翰
asp.net - 谷歌机器人问题
我有两个内容不同的网站,一个是用母语写的,另一个是英文的,供国际用户使用。15% 的国际用户以某种方式设法进入本地网站,反之亦然。
我使用 .NET IP 定位服务来定位用户来自哪里,然后将他重定向到正确的网站,以防他出错。问题是来自世界各地的谷歌机器人可以是任何国家并且拥有不同的IP......所以我如何区分这些用户和真实用户,以便我可以将机器人保留在我的网站上,同时将错误类型的用户重定向到正确类型的网站?
robots.txt - 即使我的 robots.txt 文件告诉 Googlebot 不要抓取,Googlebot 也会抓取我的网站
我已经设置了 robots.txt 来阻止谷歌抓取我的网站,因为它正在开发中:
但是,日志表明 Googlebot 访问了我网站的各种随机部分。一次只有一页。他们为什么这样做,我怎样才能阻止他们这样做?
日志提取:
66.249.72.174 - - [07/May/2011:08:12:11 -0700] “GET /?page=2&atype=new&filter=h HTTP/1.1”200 10156 - “Mozilla/5.0(兼容;Googlebot/2.1;+ http://www.google.com/bot.html),gzip(gfe),gzip(gfe),gzip(gfe)"
我确实希望谷歌抓取我的网站,只是还没有。
selenium - 使用 selenium 的用户代理 googlebot
我正在尝试使用 selenium 将我的网页作为 googlebot 调用。下面是我的代码,但它确实将流量重定向到以 googlebot 身份查看网页...有人可以帮助我以编程方式将我的请求定向到 googlebot 吗?