0

我正在处理一种情况,我想将猪脚本中的数据存储到文件中。这样做非常简单,但我希望文件名来自数据本身。所以,我在数据中有一个字段作为时间戳。我想使用 MAX(timestamp) 作为文件名来存储当天的所有数据。

我知道 STORE data INTO '$outputDir' USING org.apache.pig.piggybank.storage.MultiStorage('$outputDir', '2', 'none', ','); 的用法

但是这个变量“outputDir”应该作为参数传递。我想用字段的派生值设置这个值。

任何指针都会非常有帮助。

感谢和问候,

阿图尔·阿加瓦尔

4

1 回答 1

0

在 MultiStorage 中,您指定一个根目录,因为通常 HDFS 安装由许多用户共享,因此您不希望将数据写入任何地方。因此,您无法更改根目录,但您可以指定哪个字段用于在该目录中生成目录名称(在您的情况 2 中)。Javadoc很有帮助,但我猜您已经看过了?

于 2013-02-12T19:06:09.540 回答