问题标签 [googlebot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
http - Do google bots make invalid requests?
I'm building a component to ban spam bots' IPs based on the invalid requests that they make all the time, and that no user could ever make by mistake.
For example, they are always trying to submit empty forms, or making GET requests to urls that should only receive POST requests.
What I want to know is if I am at risk of banning google bots by doing so.
Are they smart enough not to crawl every url they encounter? Do they avoid form urls?
java - 我可以阻止蜘蛛访问带有某些 GET 参数的页面吗?
我们有一个可以选择将 ID 作为 GET 参数的页面。如果提供的 ID 无效,该页面会抛出错误并发出通知,告知某人正在错误地访问该页面。火上浇油的是,ID 可以有效一段时间,然后过期。
我们遇到了一个问题,搜索引擎机器人使用旧的、过期的 ID 访问页面。这意味着每次我们被蜘蛛攻击时都会收到一堆“误报”警报。我很想有一些方法告诉机器人继续抓取页面,但不使用 GET 参数——只需索引无参数页面。这甚至可以通过 robots.txt 文件或类似文件远程实现吗?
注意:我知道解决这个问题的最好方法是改变页面的行为,事实上,这会在几周内发生。我只是在此期间寻找解决方案。
php - 使 PHP 页面依赖于 GET 参数搜索引擎友好
假设某网站上有一篇关于体育的文章“科比是最棒的”
1)它对谷歌爬虫有影响吗,为了获得高搜索相关性,该文章是否在此页面上:
或者在这个:
或者在这个
2)我熟悉如何实现(a)和(b)似乎是一个简单的扩展。如何实现 (c) 中的 URL 格式?
谢谢
jquery - Googlebot 看不到 jquery 生成的内容
我使用 jQuery 通过 json 请求从数据库中检索内容。然后它将 HTML 中的通配符(如 %title%)替换为实际内容。这很好用,这样我就可以在数据库中维护我的多语言文本,但 Googlebot 只能看到通配符,而不是实际内容。我知道 Googlebot 会看到没有 javascript 的页面,但有没有办法解决这个问题?谢谢!
asp.net-mvc-3 - 仅针对 Googlebot 的请求验证问题
我没有很多头发,但我正在拔掉剩下的一点。
我的 MVC3 应用程序通过 Action 像这样提供图像
a 是预定义的图像大小,o 是该项目的图像顺序
Image 是控制器,ShowImage 是返回 FilePathResult 的动作。除非 Googlebot 出现,否则所有这些都没有任何问题。然后突然请求验证启动
如何和为什么都超出了我的理解能力。
ShowImage 动作有 ValidateInput(False),web.config 有 httpRuntime requestValidationMode="2.0" 但似乎没有任何帮助。
googlebot - 我要等多久才能让 googlebot 再次扫描我的网站?
在我网站的统计中,我看到谷歌爬虫已经扫描了我的网站一次,不幸的是我的网站正在建设中,之前更改的一些信息已经过时了。我试图告知自己 googlebot 的扫描频率,但我不确定是否能找到有关它的正确信息。在谷歌帮助页面上有一个链接允许我们请求谷歌对我们的网站进行新的扫描,无论如何,这个链接似乎是针对那些怀疑索引问题的网站管理员(不是我的情况)。我只是想知道我需要等多久才能让 googlebot 再次抓取我的页面。
robots.txt - 如何禁止某个动作?
我想禁止/questions/{ID}/foo
但不是/questions/{ID}
。
是语法Disallow: /questions/*/foo
吗?
asp.net - ASP.Net 身份验证和 Googlebot
我有一个启用表单身份验证的 ASP.Net 3.5 网站。是否可以让 Googlebot 在不提示输入用户名/密码的情况下抓取我的网站?
hyperlink - 谷歌机器人,虚假链接
我对 google bot 有一点问题,我有一个在 windows server 2009 上运行的服务器,系统名为 Workcube,它在 Coldfusion 上运行,内置了一个错误报告器,因此我收到了每条错误消息,特别是它与谷歌机器人,试图去一个不存在的虚假链接!链接如下所示:
- http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=282&HIERARCHY=215.005&brand_id=hoyrrolmwdgldah
- http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=145&HIERARCHY=200.003&brand_id=hoyrrolmwdgldah
- http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=123&HIERARCHY=110.006&brand_id=xxblpflyevlitojg
- http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=1&HIERARCHY=100&brand_id=xxblpflyevlitojg
当然,像brand_id=hoyrrolmwdgldah或brand_id=xxblpflyevlitojg这样的定义是错误的,我不知道可能是什么问题?!需要建议!谢谢大家的帮助!;)
c# - c# 基于网络的爬虫
我有几个关于爬虫的问题。
我可以创建一个纯粹在网络上工作的爬虫吗?我的意思是,可以从 web 项目的管理页面启动或停止的爬虫。
编写爬虫最方便的语言是什么?我打算用c#写它。
最重要的一个:爬虫是如何工作的?我的意思是,我知道你是通过使用
HttpWebRequest
and来创建它们的HttpWebResponse
,我猜每次页面访问后,爬虫都会回来,代码会评估结果,然后创建一个队列,将爬虫发送到其他网站。所以基本上如果这个信息是真的,考虑到我将使用一个网络项目来创建爬虫,我应该保持页面总是打开吗?爬虫对服务器的负担有多大?它会减慢服务器的速度还是对它来说是一项相对较小的工作?
我知道,这里有很多问题,我将非常感谢您的答案:)