3

我需要对大约 100 tb 的 Web 数据执行分类和聚类,并且我计划使用 Hadoop、Mahout 和 AWS。您建议我使用什么数据库来存储数据?MySQL 会工作吗?或者 MongoDB 之类的东西会更快吗?一个数据库或另一个数据库还有其他优点吗?谢谢。

4

1 回答 1

2

最简单和最直接的答案是将文件直接放在 HDFS 或 S3 中(因为您提到了 AWS)并将 Hadoop/Mahout 直接指向它们。其他数据库有不同的用途,但 Hadoop/HDFS 正是为这种大容量、批处理式分析而设计的。如果你想要一个更数据库风格的访问层,那么你可以添加 Hive 而不会太麻烦。底层存储层仍然是 HDFS 或 S3,但 Hive 可以为您提供对存储在那里的数据的类似 SQL 的访问,如果这是您所追求的。

只是为了解决您提出的另外两个选项:MongoDB 适用于低延迟读取和写入,但您可能不需要它。而且我并不了解 MySQL 的所有高级特性,但我猜测 100TB 将很难处理,尤其是当您开始处理访问所有数据的大型查询时。它更适合传统的事务访问。

于 2013-09-11T23:28:25.207 回答