免责声明:我是 Hadoop 和 Hive 的新手。
我们已经建立了一个存储大量数据的 MySql Cluster(版本 7.2.5)。这些行数以百万计,并根据 Mysql 的自动分片逻辑进行分区。即使我们正在利用 Cluster 7.2 的自适应查询本地化 (AQL),我们的一些查询也有多个连接,并且会运行几分钟甚至几小时。
在这种情况下,我可以使用 Hive 和 Hadoop 来查询数据库并检索数据吗?它会使查询更快吗?它是否复制其文件系统中的数据?这种方法的优缺点是什么?
我的意图是使用 Hive 作为 MySQL Cluster 之上的一个层,并将其用于 MySQL Cluster DB 的读/写。我的申请中没有任何交易。那么这真的可能吗?