我有一个名为“df1”的数据框,它有 X 行,假设为 1000。我想要做的是获取该数据框的具体子样本并另存为另一个。例如,我想从“df1”中提取第 400 到 700 行并将其保存为“df2”。
我知道一种可能的方法是将“df1”的内容作为向量获取:
list = df1.collect()
subsample = list[400:700]
df2 = sc.createDataFrame(subsample, attributes)
但我的问题是:有没有其他方法可以获得相同的结果而不是将数据加载到列表中?我问这个是因为当你有一个巨大的数据集时,通过收集和生成另一个数据帧可能不会有效地加载数据。
谢谢。