问题标签 [google-crawlers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5470 浏览

c# - 防止自定义网络爬虫被阻止

我正在创建一个新的网络爬虫,用于C#爬取一些特定的网站。一切顺利。但问题是某些网站在某些请求后阻止了我的爬虫 IP 地址。我尝试在我的抓取请求之间使用时间戳。但没有奏效。

有什么办法可以防止网站阻止我的爬虫?像这样的一些解决方案会有所帮助(但我需要知道如何应用它们):

  • 模拟 Google bot 或 yahoo slurp
  • 使用多个 IP 地址(事件假 IP 地址)作为爬虫客户端 IP

任何解决方案都会有所帮助。

0 投票
4 回答
15428 浏览

search-engine - 是否可以通过 robots.txt 控制爬取速度?

我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以控制 Google Webmasters 中的抓取速度(Google bot 抓取网站的速度)。我想知道是否可以通过 robots.txt 限制爬虫活动

我的意思是接受机器人来抓取页面,但会通过时间、页面或大小来限制它们的存在!

0 投票
1 回答
2577 浏览

ajax - 什么是shebang/hashbang?

除了使 AJAX 内容可被 Google 抓取之外,shebangs/hashbangs 还有其他用途吗?或者就是这样?

0 投票
4 回答
10379 浏览

asp.net - googlebot 在抓取时会保留会话吗?

googlebot 抓取页面时是否有会话?例如,我在会话中存储了一些变量并在我的站点页面中使用它们。当 googlebot 抓取这些页面时,我还会有会话变量吗?在我global.asax的会话开始时,我在会话中存储了一些变量。我对 Google bot 有任何问题吗?

0 投票
4 回答
3040 浏览

robots.txt - robots.txt 内容本身是否已编入索引?

我的 robots.txt 文件的内容实际上本身已编入索引并显示在 Google 搜索结果中。例如,只有谷歌而不是雅虎。

我真的认为谷歌应该明白不要索引我的机器人文件的内容,因为它只是告诉谷歌不要索引什么!

我在这里错过了什么吗?

0 投票
1 回答
909 浏览

seo - 为什么我的 robots.txt 阻止了 Google 抓取网页?

我对谷歌抓取的页面数量有一个“双重”问题,这可能与可能的重复内容(或不重复)有关,并且对 SEO 的影响。

关于我的网页数和 Google 抓取的网页数的事实

我在两个月前推出了一个新网站。今天,它有近 150 页(每天都在增加)。无论如何,这是我的站点地图中的页数。

如果我查看谷歌网站管理员的“抓取统计”,我可以看到谷歌每天抓取的页面数量要大得多(见下图)。谷歌一天抓取了多达 903 个页面

我不确定它实际上是否好,因为它不仅使我的服务器更加繁忙(一天 903 页的下载量为 5.6 MB),而且我害怕它也会产生一些重复的内容。

我在 Google (site:mysite.com) 上进行了检查,它给了我 1290 个页面(但只有 191 个显示,除非我点击“重复搜索并包含省略的结果”。假设 191 个是我的站点地图中的那些(我认为我有大约 40 页重复内容的问题,但我只是为此更新了网站)。

关于我的 robots.txt 的事实

我使用 robots.txt 文件来禁止所有抓取引擎访问带有参数的页面(请参阅下面的机器人)以及“标签”。

最重要的是标签。它们在我的网址中如下:

它被 robots.txt 阻止(我已经与谷歌网站管理员核实)但它仍然存在于谷歌搜索中(但您需要点击“重复搜索并包含省略的结果。”)

我不希望这些页面被抓取,因为它是重复的内容(这是对关键字的一种搜索),这就是我将它们放在 robots.txt 中的原因

最后,我的问题是:

为什么 Google 会抓取我在 robots.txt 中屏蔽的网页?

为什么 Google 会将我屏蔽的页面编入索引?这些页面是否被 Google 视为重复内容?如果是,我想这对 SEO 不利。

编辑:我不是在问如何删除在 Google 中编入索引的页面(我已经知道答案了)。

0 投票
1 回答
646 浏览

ajax - Googlebot 在请求 `?_escaped_fragment_=` URL 时如何知道网络服务器没有伪装?

关于 Google 的 AJAX 抓取规范,如果服务器在将替换为URL时向 Googlebot返回一个内容(即,大量 JavaScript 文件)和其他内容(即页面的“html 快照”) ,则感觉就像在给我伪装。毕竟,Googlebot 是如何确保服务器为和网址返回善意的等价物的。然而,这正是 AJAX 抓取规范实际上告诉网站管理员要做的事情。我错过了什么吗?Googlebot 如何确保服务器在两种情况下都返回相同的内容?#!#!?_escaped_fragment_=#!?_escaped_fragment_=

0 投票
3 回答
305 浏览

debugging - 谷歌在 Cakephp 网站描述中显示错误

我有一个 Cakephp 网站,当我在 Google 中查找它时,即使该网站运行良好,它也会在描述中显示错误。

显示的错误:

我用谷歌搜索“搜索互联网”的错误,发现几个 CakePHP 网站有同样的问题,它们工作正常,但他们的谷歌描述中有一个错误。元标记在源页面中正确显示。

有谁知道哪里错了?

我已将调试设置为零,上传了站点地图、robots.txt 文件,但即使 Bing 和 Yahoo 现在出现同样的问题,我仍然遇到同样的问题。

如果有任何机构可以帮我一把,我将不胜感激。

0 投票
1 回答
861 浏览

ruby-on-rails - GoogleBot Mobile 在 Rails 网站上抛出错误

一天中有几次,我收到一个页面格式不正确的错误。

错误环境:

每次,似乎都是 GoogleBot Mobile 试图抓取该页面。

我们正在使用带有 Nginx/Passenger Web 服务器的 Rails 3.0.7。是否有任何与移动爬虫相关的配置以避免抛出此错误?

0 投票
1 回答
523 浏览

html - 如何防止 Google 引擎引用我网站的链接和预览部分

在我的 HTML5 网站上,我的“备用”内容通常包含导航链接,以吸引访问者访问其他页面。此类导航链接包括页面标题,有时还包括内容预览。这些链接是随机创建的,可以根据缓存配置进行更改。

我怎么能说搜索引擎这个内容与被引用无关,它不应该这样做呢?是否有一个 HTML 属性可以在元素上指定它?

例如,我有一个名为“Top Music 2011”的页面。如果您使用以下请求搜索 Google:site:deadrooster.org "Top Music 2011"您会发现很多结果,但只有 1 个(幸运的是,第一个)确实相关。其他页面被退回是因为在它们的一生中,它们包含一个指向“Top Music 2011”页面的链接,但在用户要单击该链接时,他不能确定它是否仍然如此。我想解决这个问题。