问题标签 [googlebot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web - 什么是 monodoc.ashx,为什么 googlebot 要求它?
我收到了很多请求。他们都从
然后遵循看起来像 .NET 的类。这些是什么,为什么 googlebot 要求它们?
我需要将其关闭,这样我的访问和错误日志才不会被污染。
asp.net - Googlebot 正在访问 .aspx 页面,它应该只访问对 SEO 友好的 URL
Googlebot 正在访问.aspx
我网站中的页面,例如http://mysite.com/thepage.apx?id=32
我已将 Intellgencia URL 模块用于 SEO 友好的 URL,并且我的网站也有显示友好 URL(或无扩展 URL)的链接,例如: http: //mysite.com/thepage/32。
但是,googlebot 正在访问原始 URL (http://mysite.com/thepage.apx?id=32)。
在 robots.txt 文件中,我放置了以下代码:
不允许:*.aspx
我的问题是它是否会隐藏所有带有.aspx
页面和友好 URL(指向相同.aspx
页面)的页面或仅隐藏带有.aspx
扩展名的页面。
摘要:
googlebot 正在使用两个 url 访问同一页面:
- 使用原始路径,例如 somesite/thepage.aspx?id=xx
- 使用友好的 URL somesite/somepage/xx 我希望 googlebot 只访问友好的 URL。我正在使用 asp.net 2.0,友好的 url
web.config
使用 intellgencia dll 映射。
带有 Intellgencia 模块的 web.config 中的代码。
php - 如何获取 Google 机器人上次访问该页面的时间?
我有以下功能来获取 googlebot 的最后访问日期:
但是这个脚本打印我作为屏幕中整个页面的快照,即。整个页面缓存在谷歌中,但我只想捕获单词后的日期时间as it appeared on
并打印它,即:8 Oct 2011 14:03:12 GMT
。
如何?
php - 根据 URL 参数限制 Google bot 的访问
例如我有以下链接:
view
如果是,我不想授予对 Google bot 的访问权限oddsdetails
,是否可以禁用它。我正在使用 Joomla 框架,所以已经有一个 robots.txt,如果可能的话,我想扩展它。
php - 识别 googlebot 的最佳方法
识别 Googlebot 抓取工具的最可靠、最快捷的方法是什么?rDNS 可以被欺骗,因此 googlebot ip 列表看起来是最可靠的方法。是否有任何站点/资源可以获取实际的 googlebot ips?欢迎任何其他想法。
asp.net - googlebot 在抓取时会保留会话吗?
googlebot 抓取页面时是否有会话?例如,我在会话中存储了一些变量并在我的站点页面中使用它们。当 googlebot 抓取这些页面时,我还会有会话变量吗?在我global.asax
的会话开始时,我在会话中存储了一些变量。我对 Google bot 有任何问题吗?
indexing - googlebot 是否在 html 评论中索引链接?
我在 Google 网站管理员工具上获得了大量 NOT FOUND 链接,看起来这些链接来自页脚中的一段代码,该代码被放在 HTML 评论中
所有页面都有 NOARCHIVE 标签,所以它可能不是缓存问题
这发生在任何人身上吗?
iphone - 用户代理混合 iPhone 和 Googlebot
在我的网站上,我看到了这个“奇怪的”用户代理:
Mozilla/5.0+(iPhone;+U;+CPU+iPhone+OS+4_1+like+Mac+OS+X;+en-us)+AppleWebKit/532.9+(KHTML,+like+Gecko)+版本/4.0。 5+Mobile/8B117+Safari/6531.22.7+(兼容;+Googlebot-Mobile/2.1;++http://www.google.com/bot.html)
你知道它是 iPhone 还是 Google Bot?
php - php代码排除谷歌
我有一个分类网站。在这个网站上,我将用户出于历史目的访问的每个产品页面存储在数据库中,因此他可以查看他访问的最后产品。
问题是,当 googlebot 和其他人进入我的网站时,数据库会填满数千个条目,因为它会破坏谷歌访问的数千个产品页面。
我尝试了各种功能,$_SERVER['HTTP_USER_AGENT']
试图找出当前用户是否是 googlebot,如果是,则不要让数据库中的页面视图疼痛,这样它就不会被无用的结果发送垃圾邮件,但它们似乎都不起作用,因为我得到了Google ip 并在我的数据库中识别它们。
你们中的任何人都知道在 php 中确保 google 退出的好方法吗?
.htaccess - 带有 mod_rewrite 的 SEO 友好 url 显示文件试图在结果中对 seo 友好
为 Google seo 正确改写我的 mod 时遇到了一些麻烦。
www.example.com/p/press 转到内部 ./pages/press.html
但谷歌应该将链接显示为 www.example.com/p/press
那可能吗?还是谷歌会将网址显示为 www.example.com/pages/press.html?
所有其他链接和浏览器应转到 www.example2.com
假设另一次页面被 pages/press.html 击中,它确实匹配底部规则并重定向到那里。有什么方法可以使用 mod_alias 或其他方式在 /p/press 通话中首次呈现内容?