问题标签 [googlebot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
392 浏览

web-crawler - 如何防止 googlebot 抓取 Ajaxified 链接?

我有一堆 ajaxified 链接,这些链接可以做一些事情,比如投票、投票、标记帖子——标准社区审核的东西。

问题是 googlebot 会抓取这些链接,然后投票赞成、反对并标记项目。

将此添加到 robots.txt 会阻止 googlebot 抓取这些链接吗?或者还有什么我需要做的吗?

谢谢!

编辑:更改了发布方法,googlebot 仍在标记帖子。

语法是:

有什么想法吗?

0 投票
8 回答
4877 浏览

indexing - 有没有办法阻止 Googlebot 索引页面的某些部分?

是否可以对 Google 的指令进行微调,使其忽略页面的一部分,但仍将其余部分编入索引?

我们遇到了几个不同的问题,这会有所帮助,例如:

  • 显示来自外部来源的内容的页面上的 RSS 提要/新闻自动收录器类型的文本
  • 用户输入联系电话等详细信息,希望他们在网站上可见,但希望他们不能被谷歌搜索

我知道上述两种方法都可以通过其他技术(例如使用 JavaScript 编写内容)来解决,但我想知道是否有人知道 Google 是否已经提供了更简洁的选项?

我一直在对此进行一些研究,发现提到了googleongoogleofftags,但这些似乎是 Google Search Appliances 独有的。

有谁知道 Googlebot 是否会遵守一组类似的标签?

编辑:澄清一下,我不想走危险的路线,向谷歌隐藏/提供不同的内容,这就是为什么我想看看是否有一种“合法”的方式来实现我想要的在这里做。

0 投票
5 回答
5989 浏览

web-crawler - Googlebot(或任何其他高效的网络爬虫)是用哪种编程语言编写的?

有谁知道 Googlebot 是用哪种编程语言编写的?

或者,更一般地说,高效的网络爬虫是用哪种语言编写的?

我在 Java 语言中见过很多,但在我看来,它似乎不是最适合开发网络爬虫的语言,因为它会产生太多开销(尝试使用 Heritrix 网络爬虫,它非常重)。

0 投票
2 回答
256 浏览

web-crawler - 机器人网络质量

我正在寻找一个好的开源机器人来确定一些质量,这通常是谷歌索引所必需的。

例如

  • 查找重复的标题
  • 无效链接(jspider 会这样做,我认为会有更多人这样做)
  • 完全相同的页面,但不同的网址
  • 等,其中等等于谷歌质量要求。
0 投票
5 回答
309 浏览

seo - 为什么 Googlebot 会按照 URL 长度升序遍历新添加的网站?

Googlebot ( Googlebot/2.​​1 ) 似乎以对应于 URL 长度的顺序在新添加的网站上抓取 URL:s:

我已经在多个 (>10) 完全独立的站点上看到了这种确切的模式,因此排序不仅仅是随机巧合。

只是为了避免混淆:在 Googlebot 的运作方式中,抓取顺序似乎是一个非常小的细节。是的,这确实是一个小细节,但是我想了解 Googlebot 如何爬网的技术细节。爬行排序就是这样一个细节。如果您认为这条知识是“无用的”,那完全可以,但请不要用答案污染此页面,因为您的贡献不会很有帮助。根据 SO 内部规则,没有帮助的答案将被否决。

我的问题是:

  1. 您(是的,个人——不是您阅读的博客等)是否观察到了这种爬行模式?
  2. Google 是否正式记录了抓取模式?
  3. 选择这种爬行模式的原因可能是什么?

请尝试解决所有三 (3) 个问题。

0 投票
3 回答
2610 浏览

unix - 找出谷歌上次抓取的时间

我想了解当前 google 的大量页面缓存副本的情况。我想我需要

  1. 在日志中查找 IP,
  2. 检查以找到用户代理“googlebot”,然后
  3. 导出一个列表,说明每个页面以及上次访问的时间。

我想这可能是一个每周运行的 cron 作业。如果这是正确的,我将如何编写脚本?如果这是错误的,还有什么更好的方法?

0 投票
7 回答
5261 浏览

seo - Google 如何知道您在伪装?

我似乎找不到任何关于谷歌如何确定你是否隐藏你的内容的信息。从技术角度来看,您认为他们是如何确定这一点的?他们是否发送了 googlebot 以外的内容并将其与 googlebot 结果进行比较?他们有一群人比较吗?或者他们能以某种方式告诉您已经检查了用户代理并执行了不同的代码路径,因为您在名称中看到了“googlebot”?

这与关于 seo 的合法 url cloaking 的问题有关。如果文本内容完全一样,但渲染不同(1995 年风格的 html vs. ajax vs. flash),真的有隐藏的问题吗?

谢谢你穿上这个。

0 投票
3 回答
921 浏览

asp.net-mvc - ASP.NET MVC GoogleBot 问题

我使用 ASP.NET MVC 编写了一个站点,尽管此时它还没有完全 SEO 优化,但我认为这是一个好的开始。我发现当我使用 Google 的网站管理员工具来获取我的网站(以查看 GoogleBot 看到的内容)时,它会看到这个。

显然这不是我的网站的样子。我不知道 Google 是从哪里获取 HTML 的。有人有答案和解决方案吗?有人遇到同样的问题吗?

提前致谢。

0 投票
3 回答
206 浏览

performance - 优化站点到站点以快速加载 googlebot 的合法性

我的问题有点道德问题。

我在这里读到,谷歌对那些经过优化以快速加载的网站产生了更多的影响。显然,这让 Google 的工作变得更轻松,使用更少的资源,而且对每个人来说都是更好的体验,那么为什么不奖励它呢?

如今,发现瓶颈和提高页面加载速度的实际过程已广为人知。使用 YSlow 之类的工具并减少文件数量正在成为标准做法(这很棒!)

那么,提供下载速度更快的 googlebot(或其他搜索机器人)自定义内容是否公平/智能/洁净?(即没有 javasript、图像或 css)或者它会将您标记为作弊者并将您的网站扔进地狱,无法从谷歌搜索?

就我个人而言,我宁愿不冒险,我实际上想提高我的访问者的性能,无论如何。但就目前而言,关于这个话题的信息并不多,所以我想我会把它扔在那里。


编辑:

我发现了一些可能会影响的新信息。

来自 Google 的网站管理员工具:http ://www.google.com/support/webmasters/bin/answer.py?answer=158541&hl=en

页面加载时间是从用户单击页面链接到整个页面加载并显示在浏览器中的总时间。它直接从安装了 Google 工具栏并启用了可选 PageRank 功能的用户那里收集。

无法保证他们会使用相同的算法对搜索结果中的页面进行排名,但它确实可能表明实际的用户体验才是最重要的。

0 投票
2 回答
639 浏览

seo - 谷歌抓取/索引频率增加?

前段时间,谷歌过去每 3-4 个月更新一次他们的索引和反向链接。它曾经是一个大更新。最近发现更新太频繁了。有没有其他人注意到谷歌抓取、索引和反向链接更新的这些变化?