3

我想知道如何启动基于 Scrapy 的爬虫。我通过 apt-get install 安装了该工具,并尝试运行一个示例:

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy 列表
目录.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy 抓取

我从 spiders/google_directory.py 中破解了代码,但它似乎没有被执行,因为我没有看到我插入的任何打印。我阅读了他们的文档,但没有发现与此相关的内容;你有什么想法?

另外,如果您认为我应该使用其他工具来抓取网站,请告诉我。我没有使用 Python 工具的经验,Python 是必须的。

谢谢!

4

2 回答 2

7

EveryBlock.com 发布了一些使用 lxml、urllib2 和 Django 作为堆栈的高质量抓取代码。

Scraperwiki.com是鼓舞人心的,充满了 python 刮板的例子。

使用 cssselect 的简单示例:

from lxml.html import fromstring

dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]
于 2010-09-22T22:35:19.960 回答
7

您错过了 crawl 命令中的蜘蛛名称。采用:

$ scrapy crawl directory.google.com

另外,我建议您将示例项目复制到您的家中,而不是在/usr/share/doc/scrapy/examples/目录中工作,这样您就可以修改它并使用它:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com
于 2010-09-23T03:36:50.597 回答