xpath - PHPCrawl 可以用于抓取网站吗？与 Scrapy 有什么不同？

Question

我想抓取几个网站和许多建议Scrapy。它是基于 Python 的，因为我非常熟悉 PHP，所以我寻找了替代方案。

我有一个爬虫PHPCrawl。我不确定它是否只是一个爬虫，或者它是否也会提供抓取工具。如果它可以用于抓取——它是否支持 XPath 或正则表达式。

如何与ScrapyPython 上的哪个进行比较。

请建议我哪个最适合用于抓取网站。

谢谢

score 0 · Accepted Answer

PHPCrawl 是一个纯粹的爬虫，它将找到的页面及其源代码“按原样”（连同一些上下文信息）提供给用户。因此它速度很快，它不能使用多进程并且有大量的选项来配置它。

不能对 Scrapy 说太多，因为到目前为止我还没有使用它。

score 0 · Accepted Answer

是的当然。但正如我所说，PHPCrawl 提供页面源，您必须提取要从中提取的数据。

2 回答 2