我有一个 PySpark 数据框,其中有用于名称、类型、日期和值的单独列。数据框的示例如下所示:
+------+----+---+-----+
| Name|Type|Day|Value|
+------+----+---+-----+
| name1| a| 1| 140|
| name2| a| 1| 180|
| name3| a| 1| 150|
| name4| b| 1| 145|
| name5| b| 1| 185|
| name6| c| 1| 155|
| name7| c| 1| 160|
| name8| a| 2| 120|
| name9| a| 2| 110|
|name10| b| 2| 125|
|name11| b| 2| 185|
|name12| c| 3| 195|
+------+----+---+-----+
对于 的选定值Type
,我想根据标题为 的列的唯一值创建单独的数据框Day
。比方说,我选择a
了作为我的首选Type
。在上述示例中,我有三个唯一值Day
(即. 1, 2 , 3
)。对于每个唯一值Day
都有一行带有所选Type
a
- (即天数1
和2
上述数据),我想创建一个数据框,其中所有行都带有所选的Type
和Day
。在上面提到的示例中,我将有两个数据框,如下所示
+------+----+---+-----+
| Name|Type|Day|Value|
+------+----+---+-----+
| name1| a| 1| 140|
| name2| a| 1| 180|
| name3| a| 1| 150|
+------+----+---+-----+
和
+------+----+---+-----+
| Name|Type|Day|Value|
+------+----+---+-----+
| name8| a| 2| 120|
| name9| a| 2| 110|
+------+----+---+-----+
我怎样才能做到这一点?在我将使用的实际数据中,我有数百万列。所以,我想知道实现上述目标的最有效方式。
您可以使用下面提到的代码来生成上面给出的示例。
from pyspark.sql import *
import numpy as np
Stats = Row("Name", "Type", "Day", "Value")
stat1 = Stats('name1', 'a', 1, 140)
stat2 = Stats('name2', 'a', 1, 180)
stat3 = Stats('name3', 'a', 1, 150)
stat4 = Stats('name4', 'b', 1, 145)
stat5 = Stats('name5', 'b', 1, 185)
stat6 = Stats('name6', 'c', 1, 155)
stat7 = Stats('name7', 'c', 1, 160)
stat8 = Stats('name8', 'a', 2, 120)
stat9 = Stats('name9', 'a', 2, 110)
stat10 = Stats('name10', 'b', 2, 125)
stat11 = Stats('name11', 'b', 2, 185)
stat12 = Stats('name12', 'c', 3, 195)