我有几个关于爬虫的问题。
我可以创建一个纯粹在网络上工作的爬虫吗?我的意思是,可以从 web 项目的管理页面启动或停止的爬虫。
编写爬虫最方便的语言是什么?我打算用c#写它。
最重要的一个:爬虫是如何工作的?我的意思是,我知道你是通过使用
HttpWebRequest
and来创建它们的HttpWebResponse
,我猜每次页面访问后,爬虫都会回来,代码会评估结果,然后创建一个队列,将爬虫发送到其他网站。所以基本上如果这个信息是真的,考虑到我将使用一个网络项目来创建爬虫,我应该保持页面总是打开吗?爬虫对服务器的负担有多大?它会减慢服务器的速度还是对它来说是一项相对较小的工作?
我知道,这里有很多问题,我将非常感谢您的答案:)