php - 将大型 Excel 文件插入数据库

Question

我正在使用Spout读取超过 500.000 条记录的 Excel 文件（每列有 7 列，信息不多）。

问题是我的脚本超时了。我已经尝试上传这个限制并且它变得更好，但到目前为止我无法进行完整的插入，只有部分插入大约 50.000 行。

这不是我的选择。有什么方法可以拆分这个 Excel 文件，但在代码上？我看到的是即使文件没有插入数据库，操作文件也已经很慢并且超时。

所以……有什么建议吗？

谢谢！

score 0 · Accepted Answer

您可以尝试set_time_limit()重复调用，例如在插入的每一行之后。每次调用它都会重置时间限制。但是，如果您的服务器管理员设置了全局时间限制，则不允许您超过该时间限制。

但是在 MySQL 中将 50 万行一一插入到 InnoDB 表中本来就很慢，因为它需要在每一行之后进行自动提交。

如果您分批进行插入，您将获得很大的速度。例如，您现在可能正在做这样的事情：

  INSERT INTO table (col1, col2, col3) VALUES (1, 'baker', 'charlie');
  INSERT INTO table (col1, col2, col3) VALUES (2, 'delta', 'echo');
  INSERT INTO table (col1, col2, col3) VALUES (3, 'foxtrot', 'golf');
  INSERT INTO table (col1, col2, col3) VALUES (4, 'hotel', 'india');
  INSERT INTO table (col1, col2, col3) VALUES (5, 'lima', 'mike');

而是这样做：

  INSERT INTO table (col1, col2, col3) VALUES 
     (1, 'baker', 'charlie'),
     (2, 'delta', 'echo'),
     (3, 'foxtrot', 'golf'),
     (4, 'hotel', 'india'),
     (5, 'lima', 'mike');

这样，您将每五行而不是每行都在 MySQL 上产生提交开销。请注意，您可以将许多行放入单个 INSERT，而不仅仅是五个。MySQL 对查询长度的唯一限制可以通过SHOW VARIABLES LIKE 'max_allowed_packet';.

当然，这对编程有点复杂，但速度要快得多。

score 0 · Accepted Answer

无论如何，读取包含 3,500,000 个单元格的文件都不会很快。如果在功能强大的硬件上运行并且 Excel 文件使用内联字符串，则至少需要一分钟。

所以这里是你有的选项：

如果您控制正在阅读的 Excel 文件的创建，请确保它使用内联字符串（如果您使用 Spout，这是默认行为）。这将大大加快阅读速度。即使您只阅读前两行，您提到的缓慢也是由于这个原因。当不使用内联字符串时，Spout 需要首先预处理包含单元格值的文件，因为它们在另一个地方被引用。使用内联字符串，Spout 可以跳过这个昂贵的步骤并进行真正的流式传输。
增加时间限制设置，为您的脚本留出更多时间来完成其处理 ( set_time_limit )
批量插入数据库：您应该将它们插入 1000 x 1000（或更多），而不是一一插入。与数据库的每个连接都需要一些时间，因此限制它们是个好主意。

拆分文件可能有效，但需要提前完成（不在同一个脚本中，否则只会增加总处理时间的时间......）。

希望有帮助！

score -1 · Accepted Answer

最好的方法是通过以下步骤在后台执行这项工作：

将 Excel 文件上传到服务器。使用状态更新导入作业表：0：等待
设置并运行一个 crob 作业以检查此表并在存在状态为 0 的字段时执行导入作业。将状态更新为 1：处理中。执行导入作业服务（批量导入将是一个很好的解决方案）。3. 将状态更新为 2. Completed 如果导入成功完成。
如果错误...

php - 将大型 Excel 文件插入数据库

3 回答 3

Related

Reference