这可能是一个模糊的问题。我每天都会收到 4 个 CSV 文件,每个文件大约有 500k 行。我需要对它们执行“加入”和“在哪里”等价的 RDMS 操作来创建每日报告。例如,工作流程可能是:
- 根据具有 ID 的列连接 2 个 CSV 文件
- 根据日期列向下过滤数据集
- 根据某些 where 条件将新过滤的数据集与另一个 CSV 文件连接起来
- 根据更多标准进一步过滤它们
- .... // 重复
- 将最终数据集输出到 CSV 文件中
我正在考虑编写一个 PHP 脚本来:
- 将每个 CSV 文件加载到 MySQL 等关系数据库中
- 使用 SQL 执行连接和 where 条件
- 将结果加载到临时表中
- 重复 2 和 3
- 将最终数据加载到表中
- 将表导出为 CSV 文件。
你认为最好的方法是什么?