3

像许多其他人一样,我在读取文件(将其转换为 MySQL)时一直在努力解决 PHPExcel 内存使用问题。

当然,我尝试了很多地方提到的常用的东西,并且已经能够将内存效率提高至少 40%。这包括使用自定义分块读取器类,将分块读取器实例移到读取循环之外等。

我的测试服务器上有 16G 的 RAM,并在 PHP 中分配了 2G 的最大内存使用量。对于约 200K 行以下的文件,PHPExcel 将工作(缓慢但肯定)。一旦超过一定大小,脚本就会简单地将“Killed”输出到shell。日志显示内核杀死了 PHP,因为它使用了太多的内存。在使用 top 命令查看 CPU 和内存使用情况时,我可以看到可用内存和可用交换空间直线下降,而内存使用和交换空间使用猛增。

在阅读了很多关于 PHPExcel 并查看了一些源文件之后,我得出的结论是,每个单元格都存储了大量数据,而这些数据在仅处理文本时是不需要的。使用:

$objReader->setReadDataOnly(true);

有点帮助,但并没有真正做那么多......但是,使用分块读取器并将块大小设置为较小然后使用 unset() 清理大变量在理论上应该可行。我知道 PHPExcel 每次都必须读取整个文件,但它不应该将它存储在内存中,对吗?

这是我目前正在使用的代码:

<?php

date_default_timezone_set("America/New_York");
set_time_limit(7200);
ini_set('memory_limit', '2048M');

include_once("classes/PHPExcel/PHPExcel/IOFactory.php");

$inputFileName = "/PATH/TO/FILE.xlsx";
$inputFileType = PHPExcel_IOFactory::identify($inputFileName);
$worksheetName = "Sheet1";

class chunkReadFilter implements PHPExcel_Reader_IReadFilter
{
    private $_startRow = 0;
    private $_endRow = 0;

    public function __construct($startRow, $chunkSize)
    {
        $this->_startRow = $startRow;
        $this->_endRow = $startRow + $chunkSize;
    }

    public function setRows($startRow, $chunkSize)
    {
        $this->_startRow = $startRow;
        $this->_endRow   = $startRow + $chunkSize;
    }

    public function readCell($column, $row, $worksheetName = '')
    {
        if (($row == 1) || ($row >= $this->_startRow && $row < $this->_endRow))
        {
            return true;
        }
        return false;
    }
}


$objReader = PHPExcel_IOFactory::createReader($inputFileType);
$objReader->setReadDataOnly(true);

$chunkSize = 1000;

echo "Got here 1\n";

$chunkFilter = new chunkReadFilter(2,$chunkSize);


for ($startRow = 2; $startRow <= 378767; $startRow += $chunkSize)
{
    $chunkFilter->setRows($startRow, $chunkSize);
    $objReader->setReadFilter($chunkFilter);
    echo "Got here 2\n";

    $objPHPExcel = $objReader->load($inputFileName);
    echo "Got here 3\n";

    $sheet = $objPHPExcel->getSheetByName($worksheetName);
    echo "Got here 4\n";

    $highestRow = $sheet->getHighestRow(); 
    $highestColumn = $sheet->getHighestColumn();
    echo "Got here 5\n";

    $sheetData = $sheet->rangeToArray("A".$startRow.":".$highestColumn.$highestRow, NULL, TRUE, FALSE);
    print_r($sheetData);
    echo "\n\n";
}

?>

哪个输出:

[USER@BOX Directory]# php PhpExcelBigFileTest.php
Got here 1
Got here 2
Killed

这导致了一个问题:PHPExcel 是否试图将整个文件加载到内存中,而不管我的过滤器如何?如果是这样,为什么 PHP 没有在 2G 内存使用时停止它,而是让它变得如此糟糕,内核不得不杀死 PHP?

4

1 回答 1

4

PHPExcel 目前使用 SimpleXML 来读取基于 XML 的格式,例如 OfficeOpenXML (xlsx)、OASIS (.odc) 和 Gnumeric,而不是内存效率更高的 XMLReader。这意味着压缩存档中的每个文件 XML 文件都直接加载到 PHP 内存中以进行解析和构建 PHPExcel 对象。虽然单元格分块通过减少 PHPExcel 对象所使用的内存来减少它所拥有的单元格数量到由读取过滤器定义的那些,但它仍然需要将整个文件加载到内存中以便 SimpleXML 解析它。

开发团队已经查看了直接从压缩存档到 PHP 的 pull-parser XMLReader 的流数据,初步实验表明这是非常节省内存的;但它也是一个主要的代码重写,以反映电子表格阅读器使用这种方法;由于开发资源有限,可用时间有限,这不是一项可以轻易完成的任务。

除了通过仅将单元子集加载到 PHPExcel 对象中来减少内存之外,您可能还想查看单元缓存。这在文档中进行了描述,并允许以减少它们占用的内存的方式存储单元对象。提供了不同的方法以适应不同的系统,并且节省的内存量会根据 PHP 版本和配置而有所不同,因此您需要确定哪些方法最适合您自己的系统。使用单元缓存也有速度成本。通常 SQLite 是最节省内存的方法,但也是最慢的方法之一。

于 2015-03-12T22:59:44.677 回答