6

我有一个 16 MB 大小的 CSV 文件并尝试解析它,并做一些事情,但一段时间后脚本内存不足。我意识到这段代码生成了大约 200 MB 的已用空间并且 unset 不起作用。

    $countRows = 1;
    var_dump("3. ".memory_get_usage()." beginDiff: ".(memory_get_usage() - $this->startingMemory));
    while(($row = fgetcsv($fp, 300000, ';', '"')) !== FALSE)
    {
        if ($row == '')
            continue;

        if($firstRow == true)
        {
            foreach($row as $k => $v)
            {
                $this->columnMapping[$k] = trim(mb_strtolower($v));
            }
            $firstRow = false;
            continue;
        }else
        {
            foreach($row as $k => $v)
            {
                $row[$this->columnMapping[$k]] = $v;
                unset($row[$k]);
            }
        }
    ...
        //$this->theirCategoriesToProducts[$row['kategorie']][]['kodproduktu'] = $row['kodproduktu'];
        $this->theirCategoriesToProducts[$row['kategorie']][] = $row;
    }
    var_dump("3,5.  ".memory_get_usage()." beginDiff: ".(memory_get_usage() - $this->startingMemory));
    ...
    var_dump("7. - before unset total: ".memory_get_usage()." beginDiff: ".(memory_get_usage() - $this->startingMemory));
    unset($this->theirCategoriesToProducts);
    var_dump("8. - after unset total: ".memory_get_usage()." beginDiff: ".(memory_get_usage() - $this->startingMemory));die;

生成此输出:

    string '3. 72417440 beginDiff: 34730040' (length=31)
    string '3,5.  292748528 beginDiff: 255061136' (length=36)
    string '7. - before unset total: 299039360 beginDiff: 261351984' (length=55)
    string '8. - after unset total: 297364432 beginDiff: 259677056' (length=54)

设置该变量等于 null 的输出非常相似。但是在这两行之间切换注释

    $this->theirCategoriesToProducts[$row['kategorie']][]['kodproduktu'] = $row['kodproduktu'];
    //$this->theirCategoriesToProducts[$row['kategorie']][] = $row;

将输出:

    string '3. 72417784 beginDiff: 34730040' (length=31)
    string '3,5.  81081984 beginDiff: 43394248' (length=34)
    string '7. - before unset total: 87256544 beginDiff: 49568824' (length=53)
    string '8. - after unset total: 85581520 beginDiff: 47893800' (length=52)

所以它大约有 200 MB 的“丢失”内存(几乎是专用内存的一半)。

取消设置数组所有部分的递归函数会消耗更多的内存,而不是能够释放所以也崩溃了。

在脚本中永远不会使用带有 & 的数组,因此不应该引用其他变量。

文件在 3.5 转储后立即关闭。

任何其他想法,如何取消设置该数组?

4

4 回答 4

6

从 PHP > 5.3 开始,有一些垃圾收集机制可用,所以理论上你可以想到类似文档中的示例

//Memory cleanup for long-running scripts.
gc_enable(); // Enable Garbage Collector
var_dump(gc_enabled()); // true
var_dump(gc_collect_cycles()); // # of elements cleaned up
gc_disable(); // Disable Garbage Collector

但不幸的是,在您的情况下,您必须记住(根据Can I trigger PHP garbage collection to automatically occur if I have circular references?)垃圾收集器“将不会运行,例如,当内存限制即将达到命中。因此,当达到内存限制时,您的脚本仍然可以中止,只是因为 PHP 太笨,无法在这种情况下收集循环!”。

最后,您可以尝试使用 GC,但它可能无法解决您的问题。

那么,还有什么可以尝试的呢?尝试将您导入的主数据数组拆分为更小的块,然后依次导入它们。始终将循环中的块获取到相同的变量中,然后循环通过它来处理记录。

于 2013-08-09T10:22:13.993 回答
3

您可以使用unset删除变量,允许它们被垃圾收集。

$foo = "bar";
unset($foo);
var_dump($foo); // null

总体而言,只需跟踪您要引用的内容。也许您不需要跟踪所有内容。-loop可以while让您提高内存效率,只需保留每行所需的内容。

有些脚本实际上只需要大量内存即可运行,增加内存限制并不算太疯狂,但只有在实际需要时才这样做。

于 2013-08-08T09:32:57.193 回答
2

PHP函数fgetcsv不好,因为服务器需要将完整的文件存储在内存中,最好读取一行存储它

并且 php 数组使用大量内存,因为 php 数组中的数组被实现为“hashmaps”或“hashtable”,splFixedArray如果您不需要字符串作为键,您可以使用(真正的 C 或 C++ 数组)

splFixedArray(您至少需要 php 5.3 才能使用它)已知使用 php 数组所需的总数的 40%。

于 2013-08-11T17:38:18.313 回答
0

在这种情况下,在跳过的行中发现了问题。其中一个使用函数是隐藏函数,将数组的每个部分分配给缓存全局变量。删除这个缓存变量解决了这个问题。

于 2016-03-21T08:13:34.967 回答