我正在尝试从数百万行(5 TB+ 表)的嵌套 JSON 中获取一些值。最有效的方法是什么?
这是一个例子:
{"country":"US","page":227,"data":{"ad":{"impressions":{"s":10,"o":10}}}}
我需要上述 JSON 中的这些值:
Country Page impressions_s impressions_o
--------- ----- ------------- --------------
US 2 10 10
这是 Hive 的 json_tuple 函数,我不确定这是否是最好的函数。 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-getjsonobject