我正在玩 hortonworks 沙箱来学习 hadoop 等。
我正在尝试在单机“集群”上加载文件:
A = LOAD 'googlebooks-eng-all-3gram-20090715-0.csv' using PigStorage('\t')
AS (ngram:chararray, year:int, count1:int, count2:int, count3:int);
B = LIMIT A 10;
Dump B;
不幸的是,该文件对于我的 VM 上的 ram 来说有点太大了。
我想知道是否可以LOAD
将 . csv
文件?
这样的事情可能吗:
LOAD 'googlebooks-eng-all-3gram-20090715-0.csv' using PigStorage('\t') LOAD ONLY FIRST 100MB?