我正在使用scrapy从各种来源中提取一些数据,它工作得非常好,但现在我已经编写了一个蜘蛛来从一个大的XML文件(大约100MB => 40000个项目)中提取数据。
我正在使用scrapy XMLFeedSpider。
问题是scrapy正在使用大量内存(1GB或更多),我不知道为什么它不释放我的项目使用的内存。
当我使用 scrapy 的 trackrefs 工具(通过 telnet 连接到我的蜘蛛)时,我得到以下输出:
>>> prefs()
Libxml2Document 2 oldest: 160s ago
CustomName 1 oldest: 163s ago
XmlResponse 1 oldest: 161s ago
XmlXPathSelector 1 oldest: 0s ago
Request 1 oldest: 163s ago
CustomName 38893 oldest: 150s ago
我已禁用所有项目管道。
在我的蜘蛛中,我不保留任何项目参考,我只是创建项目并返回它们。我找不到内存泄漏在哪里...
有没有解释为什么我的物品没有被释放?