我已经将一个 json 文件调用到 HDFS(在虚拟机上运行的 HDF 2.4 沙箱),现在我想使用 Pig 来操作文件中的数据。
我开始尝试定义模式以使用 JsonLoader 将文件传递给 Pig,但是当我在某个地方读到 Pig 无法处理多行文件时放弃了这一点,我怀疑这可能是(这是我第一次使用json 并且数据文件的结构非常复杂 - 它是 5 天的 3 小时天气预报数据,来自 Met Office api ( http://www.metoffice.gov.uk/datapoint/product/uk-3hourly-site -特定预测)。
我的问题是:将这些数据简单地导入 Pig 以便我可以开始操作它的最快、最简单的方法是什么?
我碰巧我的手臂运行了以下脚本来加载文件,但由于文件只有 4.3Kb,并且脚本现在已经运行了超过 15 分钟,没有结果或生成日志,我得出的结论是这种方法没有成功了:
jdata = LOAD '/user/maria_dev/MetFiles/matched/BolsoverSite.json' USING PigStorage(',')
非常感谢任何指导谢谢。