我有一个文件,其中每一行都是一个 JSON 对象(实际上,它是 stackoverflow 的转储)。我想尽可能轻松地将其加载到 Apache Pig 中,但我无法弄清楚如何告诉 Pig 输入格式是什么。这是一个条目的示例,
{
"_id" : { "$oid" : "506492073401d91fa7fdffbe" },
"Body" : "....",
"ViewCount" : 7351,
"LastEditorDisplayName" : "Rich B",
"Title" : ".....",
"LastEditorUserId" : 140328,
"LastActivityDate" : { "$date" : 1314819738077 },
"LastEditDate" : { "$date" : 1313882544213 },
"AnswerCount" : 12, "CommentCount" : 19,
"AcceptedAnswerId" : 7,
"Score" : 83,
"PostTypeId" : "question",
"OwnerUserId" : 8,
"Tags" : [ "c#", "winforms" ],
"CreationDate" : { "$date" : 1217540572667 },
"FavoriteCount" : 13, "Id" : 4,
"ForumName" : "stackoverflow.com"
}
有没有一种方法可以将每行都是上述之一的文件加载到 Pig 中,而无需手动指定架构?或者也许是一种基于在所有对象中观察到的(可能是嵌套的)键自动生成模式的方法?如果我确实需要手动指定架构,架构字符串会是什么样子?
谢谢!