问题标签 [googlebot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
115 浏览

web - 什么是 monodoc.ashx,为什么 googlebot 要求它?

我收到了很多请求。他们都从

然后遵循看起来像 .NET 的类。这些是什么,为什么 googlebot 要求它们?

我需要将其关闭,这样我的访问和错误日​​志才不会被污染。

0 投票
2 回答
475 浏览

asp.net - Googlebot 正在访问 .aspx 页面,它应该只访问对 SEO 友好的 URL

Googlebot 正在访问.aspx我网站中的页面,例如http://mysite.com/thepage.apx?id=32

我已将 Intellgencia URL 模块用于 SEO 友好的 URL,并且我的网站也有显示友好 URL(或无扩展 URL)的链接,例如: http: //mysite.com/thepage/32

但是,googlebot 正在访问原始 URL (http://mysite.com/thepage.apx?id=32)。

在 robots.txt 文件中,我放置了以下代码:

不允许:*.aspx

我的问题是它是否会隐藏所有带有.aspx页面和友好 URL(指向相同.aspx页面)的页面或仅隐藏带有.aspx扩展名的页面。

摘要:
googlebot 正在使用两个 url 访问同一页面:

  1. 使用原始路径,例如 somesite/thepage.aspx?id=xx
  2. 使用友好的 URL somesite/somepage/xx 我希望 googlebot 只访问友好的 URL。我正在使用 asp.net 2.0,友好的 urlweb.config使用 intellgencia dll 映射。

带有 Intellgencia 模块的 web.config 中的代码。

0 投票
2 回答
1485 浏览

php - 如何获取 Google 机器人上次访问该页面的时间?

我有以下功能来获取 googlebot 的最后访问日期:

但是这个脚本打印我作为屏幕中整个页面的快照,即。整个页面缓存在谷歌中,但我只想捕获单词后的日期时间as it appeared on并打印它,即:8 Oct 2011 14:03:12 GMT

如何?

0 投票
2 回答
303 浏览

php - 根据 URL 参数限制 Google bot 的访问

例如我有以下链接:

view如果是,我不想授予对 Google bot 的访问权限oddsdetails,是否可以禁用它。我正在使用 Joomla 框架,所以已经有一个 robots.txt,如果可能的话,我想扩展它。

0 投票
2 回答
1386 浏览

php - 识别 googlebot 的最佳方法

识别 Googlebot 抓取工具的最可靠、最快捷的方法是什么?rDNS 可以被欺骗,因此 googlebot ip 列表看起来是最可靠的方法。是否有任何站点/资源可以获取实际的 googlebot ips?欢迎任何其他想法。

0 投票
4 回答
10379 浏览

asp.net - googlebot 在抓取时会保留会话吗?

googlebot 抓取页面时是否有会话?例如,我在会话中存储了一些变量并在我的站点页面中使用它们。当 googlebot 抓取这些页面时,我还会有会话变量吗?在我global.asax的会话开始时,我在会话中存储了一些变量。我对 Google bot 有任何问题吗?

0 投票
2 回答
1172 浏览

indexing - googlebot 是否在 html 评论中索引链接?

我在 Google 网站管理员工具上获得了大量 NOT FOUND 链接,看起来这些链接来自页脚中的一段代码,该代码被放在 HTML 评论中

所有页面都有 NOARCHIVE 标签,所以它可能不是缓存问题

这发生在任何人身上吗?

0 投票
1 回答
304 浏览

iphone - 用户代理混合 iPhone 和 Googlebot

在我的网站上,我看到了这个“奇怪的”用户代理:

Mozilla/5.0+(iPhone;+U;+CPU+iPhone+OS+4_1+like+Mac+OS+X;+en-us)+AppleWebKit/532.9+(KHTML,+like+Gecko)+版本/4.0。 5+Mobile/8B117+Safari/6531.22.7+(兼容;+Googlebot-Mobile/2.1;++http://www.google.com/bot.html)

你知道它是 iPhone 还是 Google Bot?

0 投票
4 回答
1086 浏览

php - php代码排除谷歌

我有一个分类网站。在这个网站上,我将用户出于历史目的访问的每个产品页面存储在数据库中,因此他可以查看他访问的最后产品。

问题是,当 googlebot 和其他人进入我的网站时,数据库会填满数千个条目,因为它会破坏谷歌访问的数千个产品页面。

我尝试了各种功能,$_SERVER['HTTP_USER_AGENT']试图找出当前用户是否是 googlebot,如果是,则不要让数据库中的页面视图疼痛,这样它就不会被无用的结果发送垃圾邮件,但它们似乎都不起作用,因为我得到了Google ip 并在我的数据库中识别它们。

你们中的任何人都知道在 php 中确保 google 退出的好方法吗?

0 投票
0 回答
380 浏览

.htaccess - 带有 mod_rewrite 的 SEO 友好 url 显示文件试图在结果中对 seo 友好

为 Google seo 正确改写我的 mod 时遇到了一些麻烦。

www.example.com/p/press 转到内部 ./pages/press.html

但谷歌应该将链接显示为 www.example.com/p/press

那可能吗?还是谷歌会将网址显示为 www.example.com/pages/press.html?

所有其他链接和浏览器应转到 www.example2.com

假设另一次页面被 pages/press.html 击中,它确实匹配底部规则并重定向到那里。有什么方法可以使用 mod_alias 或其他方式在 /p/press 通话中首次呈现内容?