1

我最近发现了Scrapy,我觉得它非常有效。但是,我真的不知道如何将它嵌入到用 python 编写的更大的项目中。我想以正常方式创建一个蜘蛛,但能够在给定的 url 上使用函数启动它

start_crawl(url)

这将在给定域上启动爬网过程,并且仅在看到所有页面时才停止。

4

1 回答 1

3

Scrapy 要复杂得多。它运行多个进程并使用多威胁。所以实际上没有办法将它用作普通的python函数。当然你可以导入启动爬虫的函数并调用它,但是那又如何呢?您将拥有正常的杂乱无章的过程,它已经控制了您的程序。

这里最好的方法可能是将 scrappy 作为程序的子进程运行,并使用数据库或文件与其通信。您的程序和爬虫之间有很好的分离,并且对主进程有可靠的控制。

于 2010-07-22T17:41:25.980 回答