php - 比较多个非常大的 csv 文件

Question

我有 n 个 csv 文件，我需要将它们相互比较并在之后修改它们。问题是每个 csv 文件有大约 800.000 行。

要读取 csv 文件，我使用fgetcsv并且效果很好。获得一些记忆棒，但最终它已经足够快了。但是，如果我尝试将数组相互比较，则需要很长时间。

另一个问题是我必须使用 foreach 来获取带有 fgetcsv 的 csv 数据，因为有 n 个文件。我最终得到了一个超大数组，无法将其与 array_diff 进行比较。所以我需要将它与嵌套的 foreach 循环进行比较，这需要很长时间。

一个代码片段，以便更好地理解：

foreach( $files as $value ) {
    $data[] = $csv->read( $value['path'] );
}

我的 csv 类使用 fgetcsv 将输出添加到数组中：

fgetcsv( $this->_fh, $this->_lengthToRead, $this->_delimiter, $this->_enclosure )

所有 csv 文件的每个数据都存储在 $data 数组中。这可能是只使用一个数组的第一个大错误，但我不知道如何在不使用 foreach 的情况下保持文件的灵活性。我尝试使用灵活的变量名，但我也卡在那里:)

现在我有了这个大数组。通常，如果我尝试将这些值相互比较并找出文件一中的数据是否存在于文件二中，依此类推，我使用 array_diff 或 array_intersect。但在这种情况下，我只有一个大数组。正如我所说，运行一个 foreach 需要很长时间。

同样在只有 3 个文件之后，我有一个包含 3 * 800.000 个条目的数组。我想最近 10 个文件后我的记忆会爆炸。

那么有没有更好的方法来使用 PHP 来比较 n 个非常大的 csv 文件？

score 5 · Accepted Answer

使用 SQL

您没有描述如何比较 n 个文件，并且有几种方法可以这样做。如果您只想找到在 A1 中但不在 A2、...、An 中的行，那么您只需在表中添加一个布尔列diff。如果您想知道在哪些文件中重复了一行，则需要一个文本列，或者如果一行可以在多个文件中，则需要一个新表。

编辑：如果您使用的是 MySQL，请谈谈性能（我现在不太了解其他 RDBMS）。

一行一行地插入会太慢。LOAD DATA除非您可以将 CSV 文件直接放到数据库服务器的文件系统中，否则您可能无法使用。所以我想最好的解决方案是读取 CSV 中的几百行，然后发送多个插入查询INSERT INTO mytable VALUES (..1..), (..2..)。

您不能SELECT为您在其他文件中读取的每一行发出 a，因此您最好将它们放在另一个表中。然后发出多表更新以标记表 t1 和 t2 中相同的行：UPDATE t1 JOIN t2 ON (t1.a = t2.a AND t1.b = t2.b) SET t1.diff=1

也许你可以尝试使用 sqlite。这里没有并发问题，它可能比 MySQL 的客户端/服务器模型更快。而且您不需要进行太多设置即可使用 sqlite。

1 回答 1