像许多其他人一样,我在读取文件(将其转换为 MySQL)时一直在努力解决 PHPExcel 内存使用问题。
当然,我尝试了很多地方提到的常用的东西,并且已经能够将内存效率提高至少 40%。这包括使用自定义分块读取器类,将分块读取器实例移到读取循环之外等。
我的测试服务器上有 16G 的 RAM,并在 PHP 中分配了 2G 的最大内存使用量。对于约 200K 行以下的文件,PHPExcel 将工作(缓慢但肯定)。一旦超过一定大小,脚本就会简单地将“Killed”输出到shell。日志显示内核杀死了 PHP,因为它使用了太多的内存。在使用 top 命令查看 CPU 和内存使用情况时,我可以看到可用内存和可用交换空间直线下降,而内存使用和交换空间使用猛增。
在阅读了很多关于 PHPExcel 并查看了一些源文件之后,我得出的结论是,每个单元格都存储了大量数据,而这些数据在仅处理文本时是不需要的。使用:
$objReader->setReadDataOnly(true);
有点帮助,但并没有真正做那么多......但是,使用分块读取器并将块大小设置为较小然后使用 unset() 清理大变量在理论上应该可行。我知道 PHPExcel 每次都必须读取整个文件,但它不应该将它存储在内存中,对吗?
这是我目前正在使用的代码:
<?php
date_default_timezone_set("America/New_York");
set_time_limit(7200);
ini_set('memory_limit', '2048M');
include_once("classes/PHPExcel/PHPExcel/IOFactory.php");
$inputFileName = "/PATH/TO/FILE.xlsx";
$inputFileType = PHPExcel_IOFactory::identify($inputFileName);
$worksheetName = "Sheet1";
class chunkReadFilter implements PHPExcel_Reader_IReadFilter
{
private $_startRow = 0;
private $_endRow = 0;
public function __construct($startRow, $chunkSize)
{
$this->_startRow = $startRow;
$this->_endRow = $startRow + $chunkSize;
}
public function setRows($startRow, $chunkSize)
{
$this->_startRow = $startRow;
$this->_endRow = $startRow + $chunkSize;
}
public function readCell($column, $row, $worksheetName = '')
{
if (($row == 1) || ($row >= $this->_startRow && $row < $this->_endRow))
{
return true;
}
return false;
}
}
$objReader = PHPExcel_IOFactory::createReader($inputFileType);
$objReader->setReadDataOnly(true);
$chunkSize = 1000;
echo "Got here 1\n";
$chunkFilter = new chunkReadFilter(2,$chunkSize);
for ($startRow = 2; $startRow <= 378767; $startRow += $chunkSize)
{
$chunkFilter->setRows($startRow, $chunkSize);
$objReader->setReadFilter($chunkFilter);
echo "Got here 2\n";
$objPHPExcel = $objReader->load($inputFileName);
echo "Got here 3\n";
$sheet = $objPHPExcel->getSheetByName($worksheetName);
echo "Got here 4\n";
$highestRow = $sheet->getHighestRow();
$highestColumn = $sheet->getHighestColumn();
echo "Got here 5\n";
$sheetData = $sheet->rangeToArray("A".$startRow.":".$highestColumn.$highestRow, NULL, TRUE, FALSE);
print_r($sheetData);
echo "\n\n";
}
?>
哪个输出:
[USER@BOX Directory]# php PhpExcelBigFileTest.php
Got here 1
Got here 2
Killed
这导致了一个问题:PHPExcel 是否试图将整个文件加载到内存中,而不管我的过滤器如何?如果是这样,为什么 PHP 没有在 2G 内存使用时停止它,而是让它变得如此糟糕,内核不得不杀死 PHP?