我在 pyspark 中有一个键值 RDD,并且想返回一个在源 RDD 中具有相同键的对的 RDD。
#input rdd of id and user
rdd1 = sc.parallelize([(1, "user1"), (1, "user2"), (2, "user1"), (2, "user3"), (3,"user2"), (3,"user4"), (3,"user1")])
#desired output
[("user1","user2"),("user1","user3"),("user1","user4"),("user2","user4")]
到目前为止,我一直无法想出正确的功能组合来做到这一点。这样做的目的是根据共享的公共密钥创建用户的边缘列表。