我有一组数据,我在“type”列上运行了多存储命令,现在我在 hdfs 中有这些路径:“ /output/type1/ ”、“ /output/type2/ ”、“ /output/type3/ ”等等
现在,我每天在“type”列上运行一个带有 multistorage 命令的脚本,以生成“ /tmp/type1/ ”、“ /tmp/type2/ ”、“ /tmp/type3/ ”等(此处的类型可以是 < 或 =主输出中已经存在的类型)。
由于 Pig 不允许我提供已经存在的目录的输出路径,所以我每天运行的脚本是 /tmp/。有没有办法在正确的“类型”子目录下将 /tmp/ 与 /output/ 结合起来?
预计 /output/type1/ 下的 /tmp/type1/file 作为 /output/type1/file 等等。这样我可以删除 /tmp 并再次运行脚本。
任何帮助表示赞赏。提前致谢。