问题标签 [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 防止自定义网络爬虫被阻止
我正在创建一个新的网络爬虫,用于C#
爬取一些特定的网站。一切顺利。但问题是某些网站在某些请求后阻止了我的爬虫 IP 地址。我尝试在我的抓取请求之间使用时间戳。但没有奏效。
有什么办法可以防止网站阻止我的爬虫?像这样的一些解决方案会有所帮助(但我需要知道如何应用它们):
- 模拟 Google bot 或 yahoo slurp
- 使用多个 IP 地址(事件假 IP 地址)作为爬虫客户端 IP
任何解决方案都会有所帮助。
search-engine - 是否可以通过 robots.txt 控制爬取速度?
我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以控制 Google Webmasters 中的抓取速度(Google bot 抓取网站的速度)。我想知道是否可以通过 robots.txt 限制爬虫活动
我的意思是接受机器人来抓取页面,但会通过时间、页面或大小来限制它们的存在!
ajax - 什么是shebang/hashbang?
除了使 AJAX 内容可被 Google 抓取之外,shebangs/hashbangs 还有其他用途吗?或者就是这样?
asp.net - googlebot 在抓取时会保留会话吗?
googlebot 抓取页面时是否有会话?例如,我在会话中存储了一些变量并在我的站点页面中使用它们。当 googlebot 抓取这些页面时,我还会有会话变量吗?在我global.asax
的会话开始时,我在会话中存储了一些变量。我对 Google bot 有任何问题吗?
robots.txt - robots.txt 内容本身是否已编入索引?
我的 robots.txt 文件的内容实际上本身已编入索引并显示在 Google 搜索结果中。例如,只有谷歌而不是雅虎。
我真的认为谷歌应该明白不要索引我的机器人文件的内容,因为它只是告诉谷歌不要索引什么!
我在这里错过了什么吗?
seo - 为什么我的 robots.txt 阻止了 Google 抓取网页?
我对谷歌抓取的页面数量有一个“双重”问题,这可能与可能的重复内容(或不重复)有关,并且对 SEO 的影响。
关于我的网页数和 Google 抓取的网页数的事实
我在两个月前推出了一个新网站。今天,它有近 150 页(每天都在增加)。无论如何,这是我的站点地图中的页数。
如果我查看谷歌网站管理员的“抓取统计”,我可以看到谷歌每天抓取的页面数量要大得多(见下图)。
我不确定它实际上是否好,因为它不仅使我的服务器更加繁忙(一天 903 页的下载量为 5.6 MB),而且我害怕它也会产生一些重复的内容。
我在 Google (site:mysite.com) 上进行了检查,它给了我 1290 个页面(但只有 191 个显示,除非我点击“重复搜索并包含省略的结果”。假设 191 个是我的站点地图中的那些(我认为我有大约 40 页重复内容的问题,但我只是为此更新了网站)。
关于我的 robots.txt 的事实
我使用 robots.txt 文件来禁止所有抓取引擎访问带有参数的页面(请参阅下面的机器人)以及“标签”。
最重要的是标签。它们在我的网址中如下:
它被 robots.txt 阻止(我已经与谷歌网站管理员核实)但它仍然存在于谷歌搜索中(但您需要点击“重复搜索并包含省略的结果。”)
我不希望这些页面被抓取,因为它是重复的内容(这是对关键字的一种搜索),这就是我将它们放在 robots.txt 中的原因
最后,我的问题是:
为什么 Google 会抓取我在 robots.txt 中屏蔽的网页?
为什么 Google 会将我屏蔽的页面编入索引?这些页面是否被 Google 视为重复内容?如果是,我想这对 SEO 不利。
编辑:我不是在问如何删除在 Google 中编入索引的页面(我已经知道答案了)。
ajax - Googlebot 在请求 `?_escaped_fragment_=` URL 时如何知道网络服务器没有伪装?
关于 Google 的 AJAX 抓取规范,如果服务器在将替换为URL时向 Googlebot返回一个内容(即,大量 JavaScript 文件)和其他内容(即页面的“html 快照”) ,则感觉就像在给我伪装。毕竟,Googlebot 是如何确保服务器为和网址返回善意的等价物的。然而,这正是 AJAX 抓取规范实际上告诉网站管理员要做的事情。我错过了什么吗?Googlebot 如何确保服务器在两种情况下都返回相同的内容?#!
#!
?_escaped_fragment_=
#!
?_escaped_fragment_=
debugging - 谷歌在 Cakephp 网站描述中显示错误
我有一个 Cakephp 网站,当我在 Google 中查找它时,即使该网站运行良好,它也会在描述中显示错误。
显示的错误:
我用谷歌搜索“搜索互联网”的错误,发现几个 CakePHP 网站有同样的问题,它们工作正常,但他们的谷歌描述中有一个错误。元标记在源页面中正确显示。
有谁知道哪里错了?
我已将调试设置为零,上传了站点地图、robots.txt 文件,但即使 Bing 和 Yahoo 现在出现同样的问题,我仍然遇到同样的问题。
如果有任何机构可以帮我一把,我将不胜感激。
ruby-on-rails - GoogleBot Mobile 在 Rails 网站上抛出错误
一天中有几次,我收到一个页面格式不正确的错误。
错误环境:
每次,似乎都是 GoogleBot Mobile 试图抓取该页面。
我们正在使用带有 Nginx/Passenger Web 服务器的 Rails 3.0.7。是否有任何与移动爬虫相关的配置以避免抛出此错误?
html - 如何防止 Google 引擎引用我网站的链接和预览部分
在我的 HTML5 网站上,我的“备用”内容通常包含导航链接,以吸引访问者访问其他页面。此类导航链接包括页面标题,有时还包括内容预览。这些链接是随机创建的,可以根据缓存配置进行更改。
我怎么能说搜索引擎这个内容与被引用无关,它不应该这样做呢?是否有一个 HTML 属性可以在元素上指定它?
例如,我有一个名为“Top Music 2011”的页面。如果您使用以下请求搜索 Google:site:deadrooster.org "Top Music 2011"
您会发现很多结果,但只有 1 个(幸运的是,第一个)确实相关。其他页面被退回是因为在它们的一生中,它们包含一个指向“Top Music 2011”页面的链接,但在用户要单击该链接时,他不能确定它是否仍然如此。我想解决这个问题。