我有 n 个 csv 文件,我需要将它们相互比较并在之后修改它们。问题是每个 csv 文件有大约 800.000 行。
要读取 csv 文件,我使用fgetcsv并且效果很好。获得一些记忆棒,但最终它已经足够快了。但是,如果我尝试将数组相互比较,则需要很长时间。
另一个问题是我必须使用 foreach 来获取带有 fgetcsv 的 csv 数据,因为有 n 个文件。我最终得到了一个超大数组,无法将其与 array_diff 进行比较。所以我需要将它与嵌套的 foreach 循环进行比较,这需要很长时间。
一个代码片段,以便更好地理解:
foreach( $files as $value ) {
$data[] = $csv->read( $value['path'] );
}
我的 csv 类使用 fgetcsv 将输出添加到数组中:
fgetcsv( $this->_fh, $this->_lengthToRead, $this->_delimiter, $this->_enclosure )
所有 csv 文件的每个数据都存储在 $data 数组中。这可能是只使用一个数组的第一个大错误,但我不知道如何在不使用 foreach 的情况下保持文件的灵活性。我尝试使用灵活的变量名,但我也卡在那里:)
现在我有了这个大数组。通常,如果我尝试将这些值相互比较并找出文件一中的数据是否存在于文件二中,依此类推,我使用 array_diff 或 array_intersect。但在这种情况下,我只有一个大数组。正如我所说,运行一个 foreach 需要很长时间。
同样在只有 3 个文件之后,我有一个包含 3 * 800.000 个条目的数组。我想最近 10 个文件后我的记忆会爆炸。
那么有没有更好的方法来使用 PHP 来比较 n 个非常大的 csv 文件?