“google-crawlers”的相关标签问题

0 投票

2 回答

5470 浏览

c# - 防止自定义网络爬虫被阻止

我正在创建一个新的网络爬虫，用于C#爬取一些特定的网站。一切顺利。但问题是某些网站在某些请求后阻止了我的爬虫 IP 地址。我尝试在我的抓取请求之间使用时间戳。但没有奏效。

有什么办法可以防止网站阻止我的爬虫？像这样的一些解决方案会有所帮助（但我需要知道如何应用它们）：

模拟 Google bot 或 yahoo slurp
使用多个 IP 地址（事件假 IP 地址）作为爬虫客户端 IP

任何解决方案都会有所帮助。

c#web-crawler google-crawlers

2011-10-04T06:28:12.677

0 投票

4 回答

15428 浏览

search-engine - 是否可以通过 robots.txt 控制爬取速度？

我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面，我们可以控制 Google Webmasters 中的抓取速度（Google bot 抓取网站的速度）。我想知道是否可以通过 robots.txt 限制爬虫活动

我的意思是接受机器人来抓取页面，但会通过时间、页面或大小来限制它们的存在！

search-engine robots.txt google-crawlers

2011-10-16T20:56:35.343

0 投票

1 回答

2577 浏览

ajax - 什么是shebang/hashbang？

除了使 AJAX 内容可被 Google 抓取之外，shebangs/hashbangs 还有其他用途吗？或者就是这样？

ajax web-crawler google-crawlers hashbang

2011-10-21T07:07:05.363

0 投票

4 回答

10379 浏览

asp.net - googlebot 在抓取时会保留会话吗？

googlebot 抓取页面时是否有会话？例如，我在会话中存储了一些变量并在我的站点页面中使用它们。当 googlebot 抓取这些页面时，我还会有会话变量吗？在我global.asax的会话开始时，我在会话中存储了一些变量。我对 Google bot 有任何问题吗？

asp.net session googlebot google-crawlers

2011-10-31T19:54:13.383

0 投票

4 回答

3040 浏览

robots.txt - robots.txt 内容本身是否已编入索引？

我的 robots.txt 文件的内容实际上本身已编入索引并显示在 Google 搜索结果中。例如，只有谷歌而不是雅虎。

我真的认为谷歌应该明白不要索引我的机器人文件的内容，因为它只是告诉谷歌不要索引什么！

我在这里错过了什么吗？

robots.txt google-crawlers google-index

2011-11-08T10:13:57.377

0 投票

1 回答

909 浏览

seo - 为什么我的 robots.txt 阻止了 Google 抓取网页？

我对谷歌抓取的页面数量有一个“双重”问题，这可能与可能的重复内容（或不重复）有关，并且对 SEO 的影响。

关于我的网页数和 Google 抓取的网页数的事实

我在两个月前推出了一个新网站。今天，它有近 150 页（每天都在增加）。无论如何，这是我的站点地图中的页数。

如果我查看谷歌网站管理员的“抓取统计”，我可以看到谷歌每天抓取的页面数量要大得多（见下图）。谷歌一天抓取了多达 903 个页面

我不确定它实际上是否好，因为它不仅使我的服务器更加繁忙（一天 903 页的下载量为 5.6 MB），而且我害怕它也会产生一些重复的内容。

我在 Google (site:mysite.com) 上进行了检查，它给了我 1290 个页面（但只有 191 个显示，除非我点击“重复搜索并包含省略的结果”。假设 191 个是我的站点地图中的那些（我认为我有大约 40 页重复内容的问题，但我只是为此更新了网站）。

关于我的 robots.txt 的事实

我使用 robots.txt 文件来禁止所有抓取引擎访问带有参数的页面（请参阅下面的机器人）以及“标签”。

最重要的是标签。它们在我的网址中如下：

它被 robots.txt 阻止（我已经与谷歌网站管理员核实）但它仍然存在于谷歌搜索中（但您需要点击“重复搜索并包含省略的结果。”）

我不希望这些页面被抓取，因为它是重复的内容（这是对关键字的一种搜索），这就是我将它们放在 robots.txt 中的原因

最后，我的问题是：

为什么 Google 会抓取我在 robots.txt 中屏蔽的网页？

为什么 Google 会将我屏蔽的页面编入索引？这些页面是否被 Google 视为重复内容？如果是，我想这对 SEO 不利。

编辑：我不是在问如何删除在 Google 中编入索引的页面（我已经知道答案了）。

seo search-engine google-crawlers duplicate-content

2011-12-09T03:25:38.900

0 投票

1 回答

646 浏览

ajax - Googlebot 在请求 `?_escaped_fragment_=` URL 时如何知道网络服务器没有伪装？

关于 Google 的 AJAX 抓取规范，如果服务器在将替换为URL时向 Googlebot返回一个内容（即，大量 JavaScript 文件）和其他内容（即页面的“html 快照”），则感觉就像在给我伪装。毕竟，Googlebot 是如何确保服务器为和网址返回善意的等价物的。然而，这正是 AJAX 抓取规范实际上告诉网站管理员要做的事情。我错过了什么吗？Googlebot 如何确保服务器在两种情况下都返回相同的内容？#!#!?_escaped_fragment_=#!?_escaped_fragment_=

ajax googlebot google-crawlers

2011-12-22T05:14:39.437

0 投票

3 回答

305 浏览

debugging - 谷歌在 Cakephp 网站描述中显示错误

我有一个 Cakephp 网站，当我在 Google 中查找它时，即使该网站运行良好，它也会在描述中显示错误。

显示的错误：

我用谷歌搜索“搜索互联网”的错误，发现几个 CakePHP 网站有同样的问题，它们工作正常，但他们的谷歌描述中有一个错误。元标记在源页面中正确显示。

有谁知道哪里错了？

我已将调试设置为零，上传了站点地图、robots.txt 文件，但即使 Bing 和 Yahoo 现在出现同样的问题，我仍然遇到同样的问题。

如果有任何机构可以帮我一把，我将不胜感激。

debugging cakephp google-crawlers

2012-01-03T18:02:37.117

0 投票

1 回答

861 浏览

ruby-on-rails - GoogleBot Mobile 在 Rails 网站上抛出错误

一天中有几次，我收到一个页面格式不正确的错误。

错误环境：

每次，似乎都是 GoogleBot Mobile 试图抓取该页面。

我们正在使用带有 Nginx/Passenger Web 服务器的 Rails 3.0.7。是否有任何与移动爬虫相关的配置以避免抛出此错误？

ruby-on-rails google-crawlers

2012-01-09T09:28:19.863

0 投票

1 回答

523 浏览

html - 如何防止 Google 引擎引用我网站的链接和预览部分

在我的 HTML5 网站上，我的“备用”内容通常包含导航链接，以吸引访问者访问其他页面。此类导航链接包括页面标题，有时还包括内容预览。这些链接是随机创建的，可以根据缓存配置进行更改。

我怎么能说搜索引擎这个内容与被引用无关，它不应该这样做呢？是否有一个 HTML 属性可以在元素上指定它？

例如，我有一个名为“Top Music 2011”的页面。如果您使用以下请求搜索 Google：site:deadrooster.org "Top Music 2011"您会发现很多结果，但只有 1 个（幸运的是，第一个）确实相关。其他页面被退回是因为在它们的一生中，它们包含一个指向“Top Music 2011”页面的链接，但在用户要单击该链接时，他不能确定它是否仍然如此。我想解决这个问题。

html seo web-crawler google-crawlers

2012-02-06T14:25:49.773

问题标签 [google-crawlers]

Reference