我是 pyspark 的新手
我有一个看起来像的数据集(只是几列的快照)
我想按键分组我的数据。我的钥匙是
CONCAT(a.div_nbr,a.cust_nbr)
我的最终目标是将数据转换为 JSON,格式如下
k1[{v1,v2,....},{v1,v2,....}], k2[{v1,v2,....},{v1,v2,....}],....
例如
248138339 [{ PRECIMA_ID:SCP 00248 0000138339, PROD_NBR:5553505, PROD_DESC:Shot and a Beer Battered Onion Rings (5553505 and 9285840) , PROD_BRND:Molly's Kitchen,PACK_SIZE:4/2.5 LB, QTY_UOM:CA } ,
{ PRECIMA_ID:SCP 00248 0000138339 , PROD_NBR:6659079 , PROD_DESC:Beef Chuck Short Rib Slices, PROD_BRND:Stockyards , PACK_SIZE:12 LBA , QTY_UOM:CA} ,{...,...,} ],
1384611034793[{},{},{}],....
我创建了一个数据框(我加入两个表基本上是为了获得更多字段)
joinstmt = sqlContext.sql(
"SELECT a.precima_id , CONCAT(a.div_nbr,a.cust_nbr) as
key,a.prod_nbr , a.prod_desc,a.prod_brnd , a.pack_size , a.qty_uom , a.sales_opp , a.prc_guidance , a.pim_mrch_ctgry_desc , a.pim_mrch_ctgry_id , b.start_date,b.end_date
FROM scoop_dtl a join scoop_hdr b on (a.precima_id =b.precima_id)")
现在,为了获得上述结果,我需要根据键对结果进行分组,我做了以下
groupbydf = joinstmt.groupBy("key")
这导致 intp 分组数据,阅读后我知道我不能直接使用它,我需要将它转换回数据帧来存储它。
我是新手,需要一些帮助才能将其转换回数据框,或者如果还有其他方法,我将不胜感激。