我希望优化或减少以下工作流程中的步骤数。
我有一个名为 Logs 的 Hive 表。我应用了一些自定义 udf 来获取转换后的日志。
我将转换后的日志创建为表格,其中包含类似
CREATE TABLE transform_logs
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
AS
SELECT nonsafehash(visitorid), nonsafehash(url), action FROM logs
然后我做
./bin/hadoop dfs -cat /user/hive/warehouse/transform_logs/\* > transform_logs.csv
只有这样做
./bin/hadoop dfs -put transform_logs.csv /some/other/path
我的最后两个步骤是否等同于简单的 'mv' ?
我的最终目标是在 /some/other/path 下有一个 csv。
似乎我不必写入文件系统来实现这一点。