我有一个使用PySpark创建的RDD ,在通过键值加入后大小约为600 GB,看起来就像这样。
[('43.72_-70.08', (('0744632', -70.08, 43.72, '2.4'), '18090865')),
('43.72_-70.08', (('0744632', -70.08, 43.72, '2.4'), '18090865')),
('43.25_-67.58', (('0753877', -67.58, 43.25, '7.2'), '18050868')),
('43.01_-75.24', (('0750567', -75.24, 43.01, '7.2'), '18042872'))]
我想要这样的东西并按第一个元素排序:
['0744632', '18090865', '2.4',
'0744632', '18090865', '2.4',
'0750567', '18042872', '7.2',
'0753877', '18050868', '7.2']
有没有办法从元组中获取数据并以所需格式获取输出。
注意:这是一个 600 GB 的 RDD,第一列有超过一百万个不同的值,大约。150 亿行,如果可能的话,我真的很感激一种优化的方式。