我有一个以下格式的输入数据,我正在尝试拆分并创建一个键值对:
输入:
"SQL",1,2,3,4,5
"ORACLE",2,5,6,7
要写入 RDD 的预期数据:
SQL,1
SQL,2
SQL,3
SQL,4
SQL,5
ORACLE,2
ORACLE,5
ORACLE,6
ORACLE,7
我正在尝试使用以下不起作用的代码创建键值对
data_rdd = f.zipWithIndex() \
.map(lambda row: (row[0].replace('"', '').split(',')[0], (dst for dst in row[1:len(row[0])]))) \
.aggregateByKey([], lambda a, b: a + [b], lambda a, b: a + b)