0

我想抓取几个网站和许多建议Scrapy。它是基于 Python 的,因为我非常熟悉 PHP,所以我寻找了替代方案。

我有一个爬虫PHPCrawl。我不确定它是否只是一个爬虫,或者它是否也会提供抓取工具。如果它可以用于抓取——它是否支持 XPath 或正则表达式。

如何与ScrapyPython 上的哪个进行比较。

请建议我哪个最适合用于抓取网站。

谢谢

4

2 回答 2

0

PHPCrawl 是一个纯粹的爬虫,它将找到的页面及其源代码“按原样”(连同一些上下文信息)提供给用户。因此它速度很快,它不能使用多进程并且有大量的选项来配置它。

不能对 Scrapy 说太多,因为到目前为止我还没有使用它。

于 2012-11-23T08:18:00.910 回答
0

是的当然。但正如我所说,PHPCrawl 提供页面源,您必须提取要从中提取的数据。

于 2012-11-23T12:52:16.367 回答