我想将亿万富翁 JSON 数据集解析为 Pig。可以在此处找到 JSON 文件。
以下是每个条目的内容:
{
"wealth": {
"worth in billions": 1.2,
"how": {
"category": "Resource Related",
"from emerging": true,
"industry": "Mining and metals",
"was political": false,
"inherited": true,
"was founder": true
},
"type": "privatized and resources"
},
"company": {
"sector": "aluminum",
"founded": 1993,
"type": "privatization",
"name": "Guangdong Dongyangguang Aluminum",
"relationship": "owner"
},
"rank": 1372,
"location": {
"gdp": 0.0,
"region": "East Asia",
"citizenship": "China",
"country code": "CHN"
},
"year": 2014,
"demographics": {
"gender": "male",
"age": 50
},
"name": "Zhang Zhongneng"
}
尝试 1
我尝试在 grunt 中使用以下命令加载这些数据:
亿万富翁 = LOAD 'billionaires.json' USING JsonLoader('wealth: (价值数十亿:双倍,如何:(类别:chararray,来自新兴:chararray,行业:chararray,是政治:chararray,继承:chararray,是创始人:chararray ), type:chararray), company: (sector:chararray,founded:int,type:chararray,name:chararray,relationship:chararray),rank:int,location:(gdp:double,region:chararray,citizenship:chararray,国家代码:chararray),年份:int,人口统计:(性别:chararray,年龄:int),姓名:chararray');
然而,这给了我错误:
错误 org.apache.pig.tools.grunt.Grunt - 错误 1200:不匹配的输入 'in' 期望 RIGHT_PAREN
尝试 2
接下来,我尝试使用 Twitter 的大象鸟项目的加载程序,名为com.twitter.elephantbird.pig.load.JsonLoader
. 这是此 UDF 的代码。这就是我所做的:
billionaires = LOAD 'billionaires.json' USING com.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad') AS (json:map[]);
names = foreach billionaires generate json#'name' AS name;
dump names;
现在它运行了,我没有收到任何错误!但是什么都没有显示。我得到如下输出:
输入:成功读取 0 条记录(1445335 字节)来自:“hdfs://localhost:9000/user/purak/billionaires.json”
输出:成功存储 0 条记录在:“hdfs://localhost:9000/tmp/temp-1399280624/tmp-477607570”
计数器:写入的总记录数:0 写入的总字节数:0 Spillable Memory Manager 溢出计数:0 主动溢出的总包数:0 主动溢出的总记录数:0
工作 DAG:job_1478889184960_0005
我在这里做错了什么?