我在 hive 中做一些查询的自动脚本,我们发现我们需要时间从表中清除数据并插入新的数据。我们正在思考什么可以更快?
INSERT OVERWRITE TABLE SOME_TABLE
SELECT * FROM OTHER_TABLE;
或者这样做更快:
DROP TABLE SOME_TABLE;
CREATE TABLE SOME_TABLE (STUFFS);
INSERT INTO TABLE
SELECT * FROM OTHER_TABLE;
运行查询的开销不是问题。由于我们也有创建脚本。问题是,INSERT OVERWRITE
十亿行的速度比DROP + CREATE + INSERT INTO
?