3

我想知道用于抓取和分析网站的最佳 eopen-source 库是什么。一个例子是爬虫物业机构,我想从多个站点获取信息并将它们聚合到我自己的站点中。为此,我需要抓取网站并提取物业广告。

4

4 回答 4

8

我使用优秀的 python 包urllib2mechanizeBeautifulSoup做了很多抓取。

我还建议查看lxmlScrapy,尽管我目前不使用它们(仍计划尝试 scrapy)。

Perl 语言也有很好的抓取工具。

于 2009-04-17T07:43:57.553 回答
1

PHP/cURL 是一个非常强大的组合,特别是如果你想直接在网页中使用结果...

于 2009-06-02T14:13:16.200 回答
1

与莫罗佐夫先生一样,我也进行了大量的抓取工作,主要是在工作地点。如果有帮助的话,我从来不用求助于机械化。Beautifulsoup 与 urllib2 结合使用就足够了。

我用过lxml,很棒。但是,如果您需要的话,我相信几个月前当我尝试它时,Google 应用程序可能无法使用它。

感谢 Morozov 先生提到 Scrapy。没听说过。

于 2009-07-01T14:57:00.650 回答
0

除了 Scrapy,你还应该看看Parselets

于 2009-10-15T22:16:37.580 回答