-2

我们有一个应用程序,其中包含一个包含我们每天都在引用的事务数据的表。它有数百万行。显然查询该表非常慢。

有什么方法可以从该表中创建大数据并使用 hadoop 和相关技术来查询结果?

4

1 回答 1

0

您可以使用 Apache Sqoop,将大型数据库导入 Hadoop。每天最后(或根据您自己的计划),您可以将已完成的交易导入您加载的现有数据库中。因此,您每天都会通过这种方式将事务添加到 Hadoop 中的现有数据中。

你需要看到的技术

Sqoop:从数据库 Hive 导入数据:提供类似 SQL 的接口来查询该数据 Search Apache Hive Oozie:安排每天导入数据的工作。搜索 Apache oozie Sqoop 具有执行增量加载的功能,您可以使用它。

除了 Hive 你可以使用 Impala 来查询数据,它的工作速度非常快

于 2013-04-01T02:31:54.903 回答