0

如果可能的话,我需要让Web Crawling 请求并快速完成响应

我来自Java语言。我使用了两个“框架”,但都没有完全满足我的意图。

Jsoup请求/响应速度很快,但当页面有很多信息时,数据不完整。Apache HttpClient正好与此相反,数据可靠但速度很慢。

我查看了一些 Python 模块,并且正在测试Scrapy。在我的搜索中,我无法断定它是否是最快的并始终如一地带来数据,或者是否有其他更好、更冗长或困难的方法。

其次,Python 是用于此目的的好语言吗?

先感谢您。

4

2 回答 2

5

为 Scrapy +1 票。在过去的几周里,我一直在编写大型汽车论坛的爬虫,而 Scrapy 绝对令人难以置信、快速且可靠。

于 2013-10-04T01:07:38.810 回答
0

寻找“做请求并快速完成响应”的东西是没有意义的。

A. 任何 HTTP 库都会为您提供服务器响应的完整标头/正文。

B. Web 请求发生的“快速”程度通常取决于您的网络连接和服务器的响应时间,而不是您使用的客户端。

所以有了这些要求,什么都可以。

查看请求包。它是 Python 的优秀 http 客户端库。

于 2013-10-04T01:04:24.780 回答