-2

我一直在对网络抓取进行一些研究,并注意到它似乎主要使用 Python 完成,使用基于 Python 的解决方案比 PHP 有什么好处,是否存在性能问题等等?

4

3 回答 3

3

在我看来,我会选择 python,因为它与 PHP 相比具有出色的字符串处理能力。python 也有很多很酷的库,它们使抓取网页成为一种幸福。

您应该查看的一些库是:

美丽的汤

好斗的

我个人使用过 BeautifulSoup,它简单而强大。

从他们的文档中签出这段代码:

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php")
soup = BeautifulSoup(page)
for incident in soup('td', width="90%"):
    where, linebreak, what = incident.contents[:3]
    print where.strip()
    print what.strip()
    print
于 2013-09-30T06:45:57.700 回答
1

python是最好的,SCRAPY它是一个开源的,可以在一两天内让你的工作更轻松。

于 2013-09-30T06:35:31.973 回答
0

在我看来,真正的测试是看看每种方法的可扩展性以及一旦我开始抓取整个维基百科集合后它们如何处理内存管理。我在这里可能是错的,但从我目前所读的内容来看,Python 是此类繁重处理任务的首选工具。例如SCRAPY ,它有自己的刮擦功能,专为这项工作而设计

无论哪种方式,我想我只会使用 Python ;)

于 2013-09-29T16:21:31.160 回答