我需要编写一个程序来抓取论坛。
我应该使用 Scrapy 框架在 Python 中编写程序还是应该使用 Php cURL?还有一个相当于 Scrapy 的 Php 吗?
谢谢
我需要编写一个程序来抓取论坛。
我应该使用 Scrapy 框架在 Python 中编写程序还是应该使用 Php cURL?还有一个相当于 Scrapy 的 Php 吗?
谢谢
我会选择 Python,因为它具有出色的 libxml2 绑定,特别是lxml.html和pyQuery 之类的东西。Scrapy 有自己的 libxml2 绑定,我没有查看它们来测试它们,尽管浏览 Scrapy 文档并没有给我留下深刻的印象(我已经使用这些解析器和手动编码做了很多抓取)。使用其中任何一个,您将获得真正出色的 HTML 解析器,通过 XPath 进行查询,使用 lxml.html 和 pyquery(也基于 lxml 构建),您将获得 CSS 选择器。
如果你正在做一个抓取论坛的小工作,我会跳过一个抓取框架而只是手动完成——它很容易,并且不需要并行化等。
我不会将 PHP 用于我正在编写的新应用程序。由于各种原因,我不喜欢这种语言。
此外,它的优势在于作为一种服务器端脚本语言,可以在 Web 上提供动态页面。不是通用编程语言。这是另一个缺点。我会坚持使用 Python。
至于使用哪个框架,周围有很多。Harvestman、Scrapy 等。还有 80legs 基于云的爬虫,您可能无法使用。
更新:人们一直反对这个答案可能是因为我说我不喜欢 PHP。以下是原因列表。不完全准确,但还是一个不错的总结http://wiki.python.org/moin/PythonVsPhp