database - Hadoop 仅推荐用于分布式环境吗？

Question

我有一个数据库，其大小可以在一个月内达到 1TB。如果我直接进行查询，则需要很长时间。所以我正在考虑在数据库之上使用 Hadoop——大多数时候我的查询将涉及搜索整个数据库。我的数据库实例将是 1 或 2，仅此而已。一段时间后，我们清除数据库。那么我们可以使用hadoop框架，因为它有助于处理大量数据吗？

score 0 · Accepted Answer

Hadoop 不是“您查询的东西”，但您可以使用它来处理大量数据并创建搜索索引，然后将其加载到您可以查询的系统中。

如果您想要存储大数据，也可以查看HBase 。除了 HBase 之外，还有许多其他键值或非关系 (NoSQL) 存储可以很好地处理大数据。

正确的答案取决于您正在运行的查询类型。您是否总是运行特定的查询？如果是这样，那么键值存储效果很好；只需选择正确的键。如果您的查询需要按您所说的那样搜索整个数据库，并且您每隔一两个小时只进行一次查询，那么是的，原则上，您可以在 Hive 中编写一个简单的“查询”，该查询将从您的 HDFS 存储中读取。

请注意，与 RDBMS 相比，在 Hive 中进行查询只会节省您的时间，或者grep当您拥有大量数据并可以访问相当大的集群时更简单。如果你只有一台机器，这是一个非解决方案。

score 0 · Accepted Answer

Hadoop 在分布式系统上工作得更好。此外，1TB 不是大数据。为此，您的关系数据库将完成这项工作。当您必须处理 100 TB 或更多的数据时，hadoop 的真正威力就出现了……关系数据库出现故障的地方。

如果查看 Hbase 它很快，但它不能替代您的 MySQL 或 Oracle ..

database - Hadoop 仅推荐用于分布式环境吗？

2 回答 2

Related

Reference