我有一个数据库,其中包含大约 400 万条美国股票、共同基金和 ETF 价格的 5 年记录,并且每天我都在为每种证券添加每日价格。
对于我正在开发的一项功能,我需要获取每种证券的最新价格(分组最大值),并使用其他财务指标进行一些计算。证券数量约为 40K。
但是这个数据量的分组最大值很重,需要几分钟才能执行。
当然,我的表使用索引,但任务涉及获取和实时处理近 7GB 的数据。
所以我很感兴趣,这个任务是针对大数据工具和算法还是少量数据?因为在示例中我注意到他们正在处理成千上万 GB 的数据。
我的数据库是 MySQL,我想使用 Hadoop 来处理数据。这是一种好的做法,还是我只需要使用 MySQL 优化(我的数据很小吗?),或者如果在这么多数据中使用 Hadoop 是错误的,你对这种情况有什么建议?
请注意,我每天的增长和项目涉及许多分析,需要根据用户要求实时完成。
注意不知道这个问题是否可以在stackoverflow中提问,所以如果问题离题,请见谅。
提前致谢!