我有一个程序可以处理大约 500 000 个文件 {Ai} 并且对于每个文件,它将获取一个定义 {Di} 以进行解析。
目前,每个文件 {Ai} 都由一个专用的 celery 任务解析,并且每次定义文件 {Di} 都被再次解析以生成一个对象。该对象用于解析文件 {Ai}(JSON 表示)。
我想存储定义文件(生成的对象){Di(object)} 以使其可用于整个任务。
所以我想知道管理它的最佳选择是什么:
- Memcahe + Python-memcached,
- 使用 set(add)/get 接口“存储”对象的长时间运行任务。
对于性能和内存使用,最佳选择是什么?