python - 如何在spark中将rdd数据一分为二？

Question

我在 Spark RDD 中有一个数据，我想将它分成两部分，比例为 0.7。例如，如果 RDD 看起来像这样：

[1,2,3,4,5,6,7,8,9,10]

我想把它分成rdd1：

 [1,2,3,4,5,6,7]

和rdd2：

[8,9,10]

比例为 0.7。并且每次都应该是随机rdd1的。rdd2我试过这样：

seed = random.randint(0,10000)
rdd1 = data.sample(False,scale,seed)
rdd2 = data.subtract(rdd1)

它有时会起作用，但是当我的数据包含时，dict我遇到了一些问题。例如数据如下：

[{1:2},{3:1},{5:4,2;6}]

我明白了

类型错误：不可散列的类型：'dict'

score 6 · Accepted Answer

两个都RDDs

rdd = sc.parallelize(range(10))
test, train = rdd.randomSplit(weights=[0.3, 0.7], seed=1)

test.collect()
## [4, 7, 8]

train.collect()
## [0, 1, 2, 3, 5, 6, 9]

和DataFrames

df = rdd.map(lambda x: (x, )).toDF(["x"])

test, train = df.randomSplit(weights=[0.3, 0.7])

提供randomSplit可以在这里使用的方法。

备注：

randomSplitfilter每个输出用一个表示RDD。通常，不可能RDDs从单个 Spark 转换中产生多个。有关详细信息，请参阅https://stackoverflow.com/a/32971246/1560062。
您不能subtract与字典一起使用，因为它在内部是表达cogorup的，因此需要对象是hashable. 另见A list as a key for PySpark's reduceByKey

python - 如何在spark中将rdd数据一分为二？

1 回答 1

Related

Reference