2

我有多个 CSV 文件(目前为 150k-500k 行),其中包含要导入我的 MySQL 数据库的数据。

这是我目前的工作流程:

  1. 将文件导入 db 中的临时表(原始行)
  2. 一次选择一行,将其分解为数组,清理并导入。

每个项目都有一个图像,我使用 curl 下载它。下载后,我使用 codeigniters resizer (gd2) 调整它的大小。这两个步骤都是绝对必要的,并且需要时间。我希望(需要)每天删除并重新导入新文件以保持内容新鲜。

临时数据库保存的原因是我是否可以使用 crontab 生成多个导入脚本实例。这并没有给我想要的结果。

你对我如何以“快速”的方式做到这一点有任何设计想法吗?

该站点在 4GB 1.8 Ghz 双核专用服务器上运行。

谢谢 :)

4

2 回答 2

2

MySQL 有一个名为的功能LOAD DATA INFILE,它可以完全按照您正在尝试执行的操作。

从这个问题来看,目前尚不清楚您是否已经在使用它?但即使你是,听起来你可以改进你做这件事的方式。

像这样的 SQL 脚本可以为您工作:

LOAD DATA INFILE filename.csv
INTO table tablename
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
(
  field1,
  field2,
  field3,
  @var1,
  @var2,
  etc
)
SET
  field4 = @var1 / 100,
  field5 = (SELECT id FROM table2 WHERE name=@var2 LIMIT 1),
  etc

这是一个相当复杂的示例,展示了如何将 CSV 数据直接导入表中,并一次性将其操作为正确的格式。

这样做的好处是它实际上非常快。我们使用它每周导入 500,000 条记录文件,它比读取文件和写入数据库的 PHP 程序快几个数量级。我们确实从 PHP 程序运行它,但 PHP 不负责任何导入;MySQL 通过一个查询自己完成所有事情。

在我们的例子中,即使我们确实对导入数据进行了很多操作,我们仍然将其写入临时表,因为在它进入主表之前我们还有大约十几个进一步的处理步骤。但是在您的情况下,听起来这种方法可以使您完全不必使用临时表。

MySQL 手册页:http ://dev.mysql.com/doc/refman/5.1/en/load-data.html

至于下载图像,我不知道如何加快速度,除了关注哪些导入的记录已更新,并且只获取已更改记录的图像。但我猜这是否是一个可行的解决方案,那么您可能已经在这样做了。

不过,我希望 MySQL 的建议是有帮助的。

于 2012-11-13T20:59:47.877 回答
1

最快的事情是使用线程。

我建议使用两个工人,一个连接到 MySQL,一个用于下载和调整图像大小,打开 CSV,使用 fgets 或其他任何方式读取它,每行创建一个可插入数据库的 Stackable,将该可堆栈传递给另一个将下载文件(并知道存储数据的行的 ID)并调整其大小。您可能想雇用不止一名工人来处理图像......

http://docs.php.net/Worker

http://docs.php.net/Stackable

http://docs.php.net/Thread

(请务必参考 docs.php.net,文档构建有点落后)

http://pthreads.org(在索引上找到事物如何工作的基本细分)

http://github.com/krakjoe/pthreads(如果您想在本地测试,可以在此处下载 Windows)

http://pecl.php.net/package/pthreads(最新版本有点过时了)

于 2012-11-14T08:37:21.330 回答