0

我正在使用scrapy从各种来源中提取一些数据,它工作得非常好,但现在我已经编写了一个蜘蛛来从一个大的XML文件(大约100MB => 40000个项目)中提取数据。

我正在使用scrapy XMLFeedSpider

问题是scrapy正在使用大量内存(1GB或更多),我不知道为什么它不释放我的项目使用的内存。

当我使用 scrapy 的 trackrefs 工具(通过 telnet 连接到我的蜘蛛)时,我得到以下输出:

  >>> prefs()
  Libxml2Document                     2   oldest: 160s ago
  CustomName                          1   oldest: 163s ago
  XmlResponse                         1   oldest: 161s ago
  XmlXPathSelector                    1   oldest: 0s ago
  Request                             1   oldest: 163s ago
  CustomName                          38893   oldest: 150s ago

我已禁用所有项目管道。

在我的蜘蛛中,我不保留任何项目参考,我只是创建项目并返回它们。我找不到内存泄漏在哪里...

有没有解释为什么我的物品没有被释放?

4

1 回答 1

0

根据“prefs”的输出,它的第一列是类名,Scrapy 没有名为“CustomName”的类。此名称看起来像 XML 字段中的某个列。此外,你有没有看到这些奇怪的两行:

CustomName                          1   oldest: 163s ago
CustomName                          38893   oldest: 150s ago

它的意思是“不同的类,但具有相同的名称”。你应该发布你的代码。我猜您的 Item 类刚刚命名为“CustomName”。

于 2012-04-17T12:31:21.300 回答