我们有一个应用程序,其中包含一个包含我们每天都在引用的事务数据的表。它有数百万行。显然查询该表非常慢。
有什么方法可以从该表中创建大数据并使用 hadoop 和相关技术来查询结果?
您可以使用 Apache Sqoop,将大型数据库导入 Hadoop。每天最后(或根据您自己的计划),您可以将已完成的交易导入您加载的现有数据库中。因此,您每天都会通过这种方式将事务添加到 Hadoop 中的现有数据中。
你需要看到的技术
Sqoop:从数据库 Hive 导入数据:提供类似 SQL 的接口来查询该数据 Search Apache Hive Oozie:安排每天导入数据的工作。搜索 Apache oozie Sqoop 具有执行增量加载的功能,您可以使用它。
除了 Hive 你可以使用 Impala 来查询数据,它的工作速度非常快