问题标签 [googlebot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1415 浏览

bots - 检测行为良好/众所周知的机器人

我发现这个问题非常有趣:Programmatic Bot Detection 我有一个非常相似的问题,但我并不担心“行为不端的机器人”。

每次访问我都会跟踪(除了谷歌分析)以下内容:

  • 输入网址
  • 推荐人
  • 用户代理
  • Adwords(通过查询字符串)
  • 用户是否购买
  • 等等

问题是,为了计算任何类型的转化率,我最终都会得到大量“机器人”访问,这些访问极大地扭曲了我的结果。

我想忽略尽可能多的机器人访问,但我想要一个不需要太密切监视的解决方案,而且它本身不会成为性能问题,如果有人禁用了 javascript,最好仍然可以工作。

有没有好的公布的前 100 名机器人列表?我确实在http://www.user-agents.org/找到了一个列表,但它似乎包含数百个甚至数千个机器人。我不想检查每个引用者与数千个链接。

这是当前的 googlebot UserAgent。它多久改变一次?

0 投票
3 回答
839 浏览

restriction - 谷歌爬虫时间限制

有谁知道可以设置任何属性以通知 googlebot 在特定日期或时间段(例如仅在周末)来抓取网站?

谢谢,

0 投票
5 回答
3886 浏览

web-crawler - Google 何时重新抓取网站?

Google 何时重新抓取网站?为什么谷歌在缓存中有两个版本的同一页面?

http://forum.portal.edu.ro/index.php?showtopic=112733 缓存页面为:forum.portal.edu.ro/index.php?showtopic=112733&st=25/forum.portal.edu.ro/index .php?showtopic=112733&st=50

0 投票
2 回答
457 浏览

search - googlebot 为何以及如何使用我网站的搜索引擎?

不时查看我的搜索日志,我注意到到目前为止我的搜索引擎最大的用户是 google-bot。是什么赋予了?它是否正在寻找可能无法通过导航直接访问的内容?如果是这样,它如何知道要查找哪些单词和短语(它们非常相关)。它会检查网站上最受欢迎的关键字吗?我知道我似乎在这里回答了我自己的问题,但这实际上只是从第一原则中解决的。我想听听知道他们在说什么的人(即不是我)。

0 投票
1 回答
138 浏览

indexing - 我应该添加什么到我的网站以使谷歌索引子页面以及

我是一名初学者 Web 开发人员,我有一个站点JammuLinks.com,它是基于 php 构建的。它是一个城市本地列表搜索引擎。基本上我已经编写了接受参数的搜索页面,从数据库中获取记录并显示它。所以它是动态生成内容的。但是,如果您查看该站点的底部,我添加了许多静态链接,在这些链接中我已经硬编码了链接中的参数,例如 searchresult.php?tablename='schools'。所以我的问题是

由于 google 抓取页面以及页面中列出的链接,它是否也会抓取结果页面数据?我怎样才能确定它是否有。到目前为止,我尝试了 site:www.jammulinks.com,但它只产生了主页和博客。

我还可以添加什么来使静态链接也被它索引。

0 投票
2 回答
1493 浏览

indexing - 为什么 Google(或 Googlebot)会索引返回 500 错误的页面?

Googlebot 偶尔会使用错误的查询字符串参数为我们的一个网站编制索引。我不确定它是如何获取此查询字符串参数的(似乎没有任何网站使用错误链接链接到我们,并且我们网站中没有任何内容插入错误值)。如我们所料,bad 参数会导致站点抛出 500 错误。

我的印象是 Google 不会索引返回 500 错误的页面,但事实证明确实如此。所以现在我有两个问题:

1) 为什么 Googlebot 会随机插入错误的查询字符串值?(我并不真正关心这个问题的答案,但如果我们能做些什么来避免这种情况,它就会解决我们的问题。)

2) 为什么谷歌会索引一个返回 500 错误的页面?

以下是 Googlebot 创建且 Google 已编入索引的错误链接之一:

http://www.pbs.org/teacherline/catalog/browse/?sa=4&gb=baqhuxts&gb=20&gb=21&num=20&page=2&js=0&sa=1

坏参数是 gb=baqhuxts。参数“gb”应为整数。如果您从查询字符串中删除该参数,您应该会看到一个漂亮的目录页面。

关于 nofollow 和 robots.txt 解决方案:[已编辑]

我现在意识到我是个白痴,并放置了一个元标记告诉搜索机器人索引页面。那是一件愚蠢的事情。我正在删除那些。W-(

如果您在 Google 上搜索“baqhuxts”,您会发现它已使用此错误参数索引了 10 个页面。但是这些页面中的每一个都返回 500 错误。有没有人知道为什么谷歌认为这些是有效的索引页面?

0 投票
6 回答
9053 浏览

performance - 如何防止 Googlebot 压倒网站?

我在中间的专用服务器上运行一个内容很多但流量很少的网站。

有时,Googlebot 会踩到我们,导致 Apache 内存耗尽,并导致服务器崩溃。

我怎样才能避免这种情况?

0 投票
2 回答
465 浏览

asp.net - 有没有办法判断 googlebot/bingbot/yahoobot 何时在 asp.net 2005 IIS6 中抓取我的网站?

我想知道谷歌什么时候抓取这个网站,最好是给自己发一封电子邮件。

有什么方法可以做到这一点不会对性能产生不利影响?

0 投票
4 回答
1569 浏览

php - Google Bot 可以执行 PHP 脚本

我有一个不久前刚刚设置的 CRON 作业 php 脚本。但是,我注意到 PHP 文件已执行(没有激活 cron 作业)。似乎是在 Google Bot 抓取文件时发生的,因为我注意到以下引擎访问了我的页面:

http://www.google.com/bot.html

我的问题是:

1)是否有可能通过抓取我的网页,它可以执行脚本?

2) 我怎样才能从谷歌“隐藏” CRON 文件?

3) 将此文件放在我的 public_html 目录以外的其他地方是否明智?

非常感谢!

0 投票
2 回答
247 浏览

javascript - Googlebot 会读取通过 javascript 插入的微格式数据吗?

我已经尝试过 Google 的微格式测试工具,但我不清楚它与 Googlebot 的工作方式相同——Googlebot 比简单的基于 Web 的测试工具具有更多功能似乎是合理的。

所以,我想知道——在成功让Googlebot 解析通过javascript 插入的微格式数据(例如,通过document.write 的外部脚本)方面,有没有人有任何实际经验。

任何一种权威来源都会很棒。我现在对这个完全盲目。谢谢!