问题标签 [googlebot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
685 浏览

ruby-on-rails - Googlebot 将 Rails 应用程序的链接替换为子域

我有这个带有域名的 Rails 应用程序abc.com。在这个子域中,我还有一个用于 Piwik 统计信息的单独子域stats.abc.com

Googlebot 也以某种方式列出了我的子域的一些链接。

那些stats将引用应用程序中的同一页面,但被视为完全不同的网站。

我已经robots.txtstats这件事之后加入了,但想知道是否有任何适当的方法来阻止它,因为我将来可能会有新的子域。这是我的内容robots.txt

谢谢。

0 投票
3 回答
10910 浏览

robots.txt - robots.txt: user-agent: Googlebot disallow: / Google 仍在索引

查看本站的 robots.txt:

fr2.dk/robots.txt

内容是:

那应该告诉谷歌不要索引该网站,不是吗?

如果属实,为什么该网站会出现在谷歌搜索中?

0 投票
2 回答
1486 浏览

seo - 如何告诉 Google bot 某些链接不再存在

在做网站的第一天,我在一些链接的生成中犯了错误;跟随它们输出数据库错误。

Google bot 已尝试跟踪这些链接,现在它们在网站管理员工具中显示为抓取错误。虽然我已经纠正了错误,但谷歌仍然试图抓取它们。

如何告诉谷歌这样的链接不再存在并且它们不会通向哪里?我不能做一个 301 重定向,因为它会说链接是有效的并且可以索引它们。

0 投票
2 回答
501 浏览

asp.net - 如何判断访问者是不是 Googlebot?ASP.net

如何判断访问者是不是 Googlebot?ASP.net 4.0 和 C#

我的意思是我想了解访问者是否是 Googlebot。

0 投票
2 回答
59111 浏览

.htaccess - 这个 HTTP Authorization RewriteRule 有什么作用?

我的网站上某处出现了由 Google Bot 引起的重写递归错误,但由于我的 Loglevel 较低,我找不到导致该错误的 url。我提出了它,但到目前为止还没有再次发生。

所有的重写器对我来说都很好,并且有 [L] 标志,除了这个。

我不太明白。它来自开源商店系统 Magento。

据我所知,它除了设置环境变量 E 什么都不做。但这不是一种非常愚蠢的做法吗?如果这是目标,您不应该使用 SetEnv 吗?

0 投票
3 回答
4307 浏览

html - 如何防止爬虫跟踪链接?

我正在建立一个网站,允许卖家:

  • 在我的网站上列出他们的产品
  • 让每个产品链接回到卖家的网站
  • 为每个点击的链接收费

我现在需要做的是以某种方式确保我只在链接到卖家网站的链接后记录实际的人类用户。如果是爬取网站的机器人,我不应该为此向卖家收费。

有没有办法让我告诉机器人不要遵循某个链接?我不认为这nofollow不是为了阻止对内容的访问。

0 投票
2 回答
1045 浏览

asp.net - 如何停止谷歌机器人对网络服务(ASMX)的请求?

我的网站有一个基于 JSON 的 WS,我收到 Google Bot 对我的 ASMX 文件的不间断请求。

我怎样才能停止这些请求?

注意:我尝试在这里阅读它,但它似乎没有为 WS 提供任何优雅的解决方案。

这是我收到 /w HTTP 请求的异常:

0 投票
2 回答
286 浏览

redirect - 当我的根目录重定向到 [/en/home] 时,为什么 GoogleBot 对 [index.php] 感兴趣?

在过去的几个月里,googleBot 一直在访问我的网站 [index.php] 上不再存在的文件,因为所有以正确语言到正确主页的路由都是通过 htaccess 中的 apache 重写规则处理的。

Ans to,我注释掉了我的 .htaccessDirectoryIndex index.php 规则

目前,一切都很好:http://website.org根目录立即重定向到/en/home通过 301 永久重定向!

66.249.67.142 / == crawl-66-249-67-142.googlebot.com 一次又一次地访问我的网站,试图读取不存在的 index.php。我该怎么办??

潜入带有此类条目的无尽错误日志文件(可怜的 googlebot 我认为它可能更智能......)

0 投票
1 回答
472 浏览

javascript - googlebot所需的HTML快照是否需要样式化

为了使 ajax 网站可被 googlebot 抓取,它要求您的网站在设置了 _escaped_fragment 变量的页面时发回 HTML 快照。(有关更多信息,请参见此处

此 HTML 快照是否需要正确设置样式,即 googlebot 是否使用快照来预览您的站点(如您在搜索结果页面上看到的那样)。我问我的一些页面使用 javascript 来正确地动态调整图像大小,因为这不能在 CSS 中完成。

谢谢

0 投票
1 回答
495 浏览

ajax - Gmail/Facebook 聊天 - iframa、ajax、url 锚点,但索引呢?

我仍然不确定它是如何工作的(但这不是重点:D)。据我所知,整个内容(几乎:D)都在 iframe 中,而聊天窗口在 iframe 之外。请求可能是通过 ajax 发出的,并且 url 正在像这样 const_part_of_url#something 发生变化 - 所以唯一的 url 锚点(或任何它被称为)正在改变。

有两件事困扰我:

  • googlebot 怎么样,它是否能够正确索引这些页面(不是 gmail,但说一些使用类似“技术”的网页),第一个是 iframe,第二个是因为 URL 中的锚点变化?

  • 是否可以使 url 的某些部分不仅改变锚点?

问题是我有一个 mp3 搜索引擎,您也可以在其中收听这些 mp3,而且这种带有播放列表的浮动“不重新加载”播放器会有点酷:D 但我非常关心正确的页面索引和其他 SEO等等等等……所以我现在真的不知道是否值得尝试:D

干杯