我有一个应用程序已经过时了,性能开始迅速下降。
- 我有一个包含 1 亿行的数据库表。
- 我需要在两个日期之间找到一组数据。
- 对该集合中的每一行应用一些算法。
- 将结果集(大约 1600 万行)插入到新表中。
如果你已经解决了这个问题,请你解释一下如何。
我可以使用任何需要的技术,nosql 或 sql。我不是在寻找哪种技术更好。我知道这可以通过许多不同的方式来完成。
我只是在寻找:
我已经使用 6 个 mongo 分片和 map reduce 为类似的数据集解决了这个问题,每台机器都有 32gb 内存。或者,我在 sql 中使用了分布式分区。我已经在一台具有 128gb 内存和 v 高 io 的机器上尽可能多地尝试和优化,但现在需要几个小时才能完成。