python - 基于 Scrapy 的 Python 函数完全爬取一个网站

Question

我最近发现了Scrapy，我觉得它非常有效。但是，我真的不知道如何将它嵌入到用 python 编写的更大的项目中。我想以正常方式创建一个蜘蛛，但能够在给定的 url 上使用函数启动它

start_crawl(url)

这将在给定域上启动爬网过程，并且仅在看到所有页面时才停止。

score 3 · Accepted Answer

Scrapy 要复杂得多。它运行多个进程并使用多威胁。所以实际上没有办法将它用作普通的python函数。当然你可以导入启动爬虫的函数并调用它，但是那又如何呢？您将拥有正常的杂乱无章的过程，它已经控制了您的程序。

这里最好的方法可能是将 scrappy 作为程序的子进程运行，并使用数据库或文件与其通信。您的程序和爬虫之间有很好的分离，并且对主进程有可靠的控制。

1 回答 1