mysql - 用于机器学习 100 TB 数据的正确数据库

Question

我需要对大约 100 tb 的 Web 数据执行分类和聚类，并且我计划使用 Hadoop、Mahout 和 AWS。您建议我使用什么数据库来存储数据？MySQL 会工作吗？或者 MongoDB 之类的东西会更快吗？一个数据库或另一个数据库还有其他优点吗？谢谢。

score 2 · Accepted Answer

最简单和最直接的答案是将文件直接放在 HDFS 或 S3 中（因为您提到了 AWS）并将 Hadoop/Mahout 直接指向它们。其他数据库有不同的用途，但 Hadoop/HDFS 正是为这种大容量、批处理式分析而设计的。如果你想要一个更数据库风格的访问层，那么你可以添加 Hive 而不会太麻烦。底层存储层仍然是 HDFS 或 S3，但 Hive 可以为您提供对存储在那里的数据的类似 SQL 的访问，如果这是您所追求的。

只是为了解决您提出的另外两个选项：MongoDB 适用于低延迟读取和写入，但您可能不需要它。而且我并不了解 MySQL 的所有高级特性，但我猜测 100TB 将很难处理，尤其是当您开始处理访问所有数据的大型查询时。它更适合传统的事务访问。

mysql - 用于机器学习 100 TB 数据的正确数据库

1 回答 1

Related

Reference