我需要针对 10^6 到 10^9 条记录(MySQL 中的行)对 Oracle 11g、MySQL 和 Hadoop 进行基准测试。将有大量的数据挖掘查询全天候进行,并提供实时数据。我想知道哪个数据库会更好,尤其是在一些真实的统计数据方面。在接下来的几个月里,数据肯定会超出这个范围。
是否有任何开源基准测试工具?或者任何人都有一些有用的数据?
提前致谢。
编辑:-
Hadoop 不是数据库。它是一个分布式文件系统。让我更详细地解释一下我的要求。这就是我现在所拥有的,我的所有数据都在 mysql 中,我计划将其导出到 hadoop 并在其上运行我的数据挖掘算法。算法结束后,最终结果将被发送到 mysql 以更新当前数据。我现在还不能具体说明。现在算法将是广泛的,不完全是实时的,但我将运行一个 cron 作业,以每小时或 2 小时左右将数据导出到 hadoop。我们将分析当前数据,如果需要更新,则更新旧数据。
算法将主要基于神经网络。
我正在看的是:-我应该在 MySQL 中运行我的数据挖掘查询,还是按照我上面解释的操作,或者通过将数据导出到 Oracle db 来做到这一点?