我有 ~4gb 的文本文件,我解析并将数据保存在数据库中。这个过程几乎需要 3-4 小时(5-6 百万行)来处理和保存数据库中的数据。这是一个日常过程。
现在,当我查询数据库时,它花费了太多时间来计算结果并返回。就像我对某一天进行简单的平均求和运算一样,它需要 30-40 分钟。
我现在正在使用python,mysql。尝试 Spark 也进行此计算,这也需要 30-40 分钟,现在数据正在增加,因此文件大小会增加,它会像 10gb 一样,这 spark 无法处理大文件。
请建议我如何改善解析、存储在数据库中和获取时间的时间。