当您在 Hive(在 Hadoop 上)中使用 Amazon S3 源位置创建外部表时,数据何时传输到本地 Hadoop HDFS?是否开启:
- 外部表创建
- 在外部表上运行查询(MR 作业)时
- 从不(从未传输过任何数据)并且 MR 作业读取 S3 数据。
S3 读取的成本是多少?将数据传输到 HDFS 是否有单一成本,或者是否没有数据传输成本,但是当 Hive 创建的 MapReduce 作业在此外部表上运行时,会产生读取成本。
一个示例外部表定义是:
CREATE EXTERNAL TABLE mydata (key STRING, value INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '='
LOCATION 's3n://mys3bucket/';