我正在开发一个网络爬虫,我正在使用多处理,一次下载和处理四个页面。但当然,我不打算多次抓取同一页面。
在我实现多处理之前,我使用 Sets 来维护一组抓取的 URL,我选择了 Sets,因为它们非常适合成员资格测试。我认为 multiprocessing.Manager 可以帮助我在四个进程之间实现共享集。但事实并非如此。
我想做的是
manager = Manager()
d = manager.set()
但是 Manager 类中不存在这样的功能。
有谁知道如何解决或解决我的问题?