0

我的 spark 数据框df的列名是:A_x1、A_x2、B_x1、B_x2、C_x1、C_x2。

如何使用前缀从df创建 3 个新的 spark 数据帧?输出应如下所示:

  • 名为A_的数据框包含列 A_x1、A_x2、
  • 名为B_的数据框包含列 B_x1、B_x2、
  • 名为C_的数据框包含列 C_x1、C_x2。

谢谢!

4

1 回答 1

4

您可以使用colRegex过滤列:

A_ = df.select(df.colRegex('`A_.*`'))
B_ = df.select(df.colRegex('`B_.*`'))
C_ = df.select(df.colRegex('`C_.*`'))
于 2021-01-06T14:15:19.847 回答