web-crawler - 用于抓取和挖掘网站数据的最佳开源库或应用程序

Question

我想知道用于抓取和分析网站的最佳 eopen-source 库是什么。一个例子是爬虫物业机构，我想从多个站点获取信息并将它们聚合到我自己的站点中。为此，我需要抓取网站并提取物业广告。

score 8 · Accepted Answer

我还建议查看lxml和Scrapy，尽管我目前不使用它们（仍计划尝试 scrapy）。

Perl 语言也有很好的抓取工具。

score 1 · Accepted Answer

1

PHP/cURL 是一个非常强大的组合，特别是如果你想直接在网页中使用结果...

于 2009-06-02T14:13:16.200 回答

score 1 · Accepted Answer

与莫罗佐夫先生一样，我也进行了大量的抓取工作，主要是在工作地点。如果有帮助的话，我从来不用求助于机械化。Beautifulsoup 与 urllib2 结合使用就足够了。

我用过lxml，很棒。但是，如果您需要的话，我相信几个月前当我尝试它时，Google 应用程序可能无法使用它。

感谢 Morozov 先生提到 Scrapy。没听说过。

score 0 · Accepted Answer

0

除了 Scrapy，你还应该看看Parselets

于 2009-10-15T22:16:37.580 回答

4 回答 4