我有一个数据库,其大小可以在一个月内达到 1TB。如果我直接进行查询,则需要很长时间。所以我正在考虑在数据库之上使用 Hadoop——大多数时候我的查询将涉及搜索整个数据库。我的数据库实例将是 1 或 2,仅此而已。一段时间后,我们清除数据库。那么我们可以使用hadoop框架,因为它有助于处理大量数据吗?
问问题
76 次
2 回答
0
Hadoop 不是“您查询的东西”,但您可以使用它来处理大量数据并创建搜索索引,然后将其加载到您可以查询的系统中。
如果您想要存储大数据,也可以查看HBase 。除了 HBase 之外,还有许多其他键值或非关系 (NoSQL) 存储可以很好地处理大数据。
正确的答案取决于您正在运行的查询类型。您是否总是运行特定的查询?如果是这样,那么键值存储效果很好;只需选择正确的键。如果您的查询需要按您所说的那样搜索整个数据库,并且您每隔一两个小时只进行一次查询,那么是的,原则上,您可以在 Hive 中编写一个简单的“查询”,该查询将从您的 HDFS 存储中读取。
请注意,与 RDBMS 相比,在 Hive 中进行查询只会节省您的时间,或者grep
当您拥有大量数据并可以访问相当大的集群时更简单。如果你只有一台机器,这是一个非解决方案。
于 2012-07-19T03:38:57.980 回答
0
Hadoop 在分布式系统上工作得更好。此外,1TB 不是大数据。为此,您的关系数据库将完成这项工作。当您必须处理 100 TB 或更多的数据时,hadoop 的真正威力就出现了……关系数据库出现故障的地方。
如果查看 Hbase 它很快,但它不能替代您的 MySQL 或 Oracle ..
于 2012-07-19T06:26:26.340 回答