-1

我有几个关于爬虫的问题。

  1. 我可以创建一个纯粹在网络上工作的爬虫吗?我的意思是,可以从 web 项目的管理页面启动或停止的爬虫。

  2. 编写爬虫最方便的语言是什么?我打算用c#写它。

  3. 最重要的一个:爬虫是如何工作的?我的意思是,我知道你是通过使用HttpWebRequestand来创建它们的HttpWebResponse,我猜每次页面访问后,爬虫都会回来,代码会评估结果,然后创建一个队列,将爬虫发送到其他网站。所以基本上如果这个信息是真的,考虑到我将使用一个网络项目来创建爬虫,我应该保持页面总是打开吗?爬虫对服务器的负担有多大?它会减慢服务器的速度还是对它来说是一项相对较小的工作?

我知道,这里有很多问题,我将非常感谢您的答案:)

4

1 回答 1

1

1) 爬虫绝对可以在网络上工作。您的爬虫可以是 ASP.NET 应用程序,或者您的管理页面可以启动或停止服务器上的任务(网络爬虫)。

2) VB.NET 或 C# 有效。他们都有大量的库来处理网络。

3)我想你正在寻找的是一个递归函数。首先,在互联网上选择一个页面(包含很多链接)。对于页面中的每个链接,再次运行爬虫的 main 方法。一遍又一遍地这样做。您可能希望限制爬行的“深度”。我想你也想在每个页面内做一些工作。

于 2011-07-25T14:12:08.367 回答