我实际上是在尝试使用带有 Yarn 的 CDH 5.0 上的 Hive 来实现 Hadoop 的解决方案。所以我的架构是: 1 Namenode 3 DataNode 我正在查询约 1.23 亿行 21 列
我的节点使用 2vCPU @2.27 和 8 GO RAM 进行虚拟化
所以我尝试了一些请求并得到了一些结果,然后我在具有相同数据集的基本 MySQL 中尝试了相同的请求,以便比较结果。
实际上 MySQL 比 Hive 快得多。所以我试图理解为什么。我知道我有一些糟糕的表现,因为我的主人。我的主要问题是:我的集群大小合适吗?
我是否需要为这么多数据添加相同的 DataNode(我认为这不是很大)?
如果有人尝试使用大致相同的架构提出一些请求,欢迎您与我分享您的结果。
谢谢 !