我想根据时间对排序的 Pyspark 数据帧进行训练测试拆分。假设前 300 行将在训练集中,接下来的 200 行将在测试拆分中。
我可以选择前 300 行 -
train = df.show(300)
但是如何从 Pyspark 数据框中选择最后 200 行?
我想根据时间对排序的 Pyspark 数据帧进行训练测试拆分。假设前 300 行将在训练集中,接下来的 200 行将在测试拆分中。
我可以选择前 300 行 -
train = df.show(300)
但是如何从 Pyspark 数据框中选择最后 200 行?