在使用加载数据流步骤的猪中,使用(使用 PigStorage)和不使用它有什么区别?
想知道以下步骤之间的区别。
movie2 = load 'movie/part-m-00000' as (mid:int, mname:chararray, myr:int);
movie2 = load 'movie/part-m-00000' using PigStorage(',') as (mid:int, mname:chararray, myr:int);
在使用加载数据流步骤的猪中,使用(使用 PigStorage)和不使用它有什么区别?
想知道以下步骤之间的区别。
movie2 = load 'movie/part-m-00000' as (mid:int, mname:chararray, myr:int);
movie2 = load 'movie/part-m-00000' using PigStorage(',') as (mid:int, mname:chararray, myr:int);
默认使用 PigStorage,它是一个文本文件,其中的字段由分隔符分隔,制表符作为分隔符。
指定using PigStorage(',')
将分隔符更改为逗号。
添加到 rsp 的答案,使用 PigStorage 有两个优点
指定文件分隔符的选项
是否加载输入模式的选项。
更多细节在这里: http: //pig.apache.org/docs/r0.10.0/api/org/apache/pig/builtin/PigStorage.html