我正在运行一个简单的连接查询
select count(*) from t1 join t2 on t1.sno=t2.sno
表 t1 和 t2 都有 2000 万条记录,列 sno 是字符串数据类型。
表数据以 rcfile 格式从 Amazon s3 导入 HDFS。15 个 Amazon 大型实例的查询耗时 109 秒,但在 16 GB RAM 和 16 个 cpu 内核的 sql server 上耗时 42 秒。
我错过了什么吗?不明白为什么我在亚马逊上的表现会变慢?