126
>>> a
DataFrame[id: bigint, julian_date: string, user_id: bigint]
>>> b
DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]
>>> a.join(b, a.id==b.id, 'outer')
DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]

有两个id: bigint,我想删除一个。我能怎么做?

4

9 回答 9

159

阅读 Spark 文档,我发现了一个更简单的解决方案。

从 spark 1.4 版开始,有一个函数drop(col)可以在数据帧上的 pyspark 中使用。

您可以通过两种方式使用它

  1. df.drop('age')
  2. df.drop(df.age)

Pyspark 文档 - 删除

于 2015-09-18T13:32:30.693 回答
140

添加到@Patrick 的答案,您可以使用以下内容删除多列

columns_to_drop = ['id', 'id_copy']
df = df.drop(*columns_to_drop)
于 2018-05-23T15:56:21.683 回答
33

一个简单的方法是用户 " select" 并意识到你可以得到一个所有columnsdataframe, df,的列表df.columns

drop_list = ['a column', 'another column', ...]

df.select([column for column in df.columns if column not in drop_list])
于 2016-03-10T23:26:27.610 回答
19

您可以使用两种方式:

1:您只需保留必要的列:

drop_column_list = ["drop_column"]
df = df.select([column for column in df.columns if column not in drop_column_list])  

2:这是更优雅的方式。

df = df.drop("col_name")

您应该避免使用 collect() 版本,因为它会将完整的数据集发送给 master,这将需要大量的计算工作!

于 2018-08-27T09:35:49.883 回答
12

您可以明确命名要保留的列,如下所示:

keep = [a.id, a.julian_date, a.user_id, b.quan_created_money, b.quan_created_cnt]

或者在更一般的方法中,您将通过列表理解包含除特定列之外的所有列。例如像这样(不包括 中的idb):

keep = [a[c] for c in a.columns] + [b[c] for c in b.columns if c != 'id']

最后,您对加入结果进行选择:

d = a.join(b, a.id==b.id, 'outer').select(*keep)
于 2015-04-14T07:26:39.417 回答
3

也许有点离题,但这里是使用 Scala 的解决方案。Array从您的列名中创建一个oldDataFrame并删除要删除的列("colExclude")。然后传递Array[Column]select并解压它。

val columnsToKeep: Array[Column] = oldDataFrame.columns.diff(Array("colExclude"))
                                               .map(x => oldDataFrame.col(x))
val newDataFrame: DataFrame = oldDataFrame.select(columnsToKeep: _*)
于 2015-07-07T19:50:36.560 回答
1

是的,可以通过这样的切片来删除/选择列:

切片 = data.columns[a:b]

data.select(slice).show()

例子:

newDF = spark.createDataFrame([
                           (1, "a", "4", 0), 
                            (2, "b", "10", 3), 
                            (7, "b", "4", 1), 
                            (7, "d", "4", 9)],
                            ("id", "x1", "x2", "y"))


slice = newDF.columns[1:3]
newDF.select(slice).show()

使用 select 方法获取特征列:

features = newDF.columns[:-1]
newDF.select(features).show()

使用 drop 方法获取最后一列:

last_col= newDF.drop(*features)
last_col.show()
于 2021-03-13T06:33:29.217 回答
-1

考虑 2 个数据帧:

>>> aDF.show()
+---+----+
| id|datA|
+---+----+
|  1|  a1|
|  2|  a2|
|  3|  a3|
+---+----+

>>> bDF.show()
+---+----+
| id|datB|
+---+----+
|  2|  b2|
|  3|  b3|
|  4|  b4|
+---+----+

要完成您正在寻找的东西,有两种方法:

1、加盟条件不同。而不是说 aDF.id == bDF.id

aDF.join(bDF, aDF.id == bDF.id, "outer")

写这个:

aDF.join(bDF, "id", "outer").show()
+---+----+----+
| id|datA|datB|
+---+----+----+
|  1|  a1|null|
|  3|  a3|  b3|
|  2|  a2|  b2|
|  4|null|  b4|
+---+----+----+

这将自动摆脱额外的丢弃过程。

2.使用别名:您将丢失与B特定ID相关的数据。

>>> from pyspark.sql.functions import col
>>> aDF.alias("a").join(bDF.alias("b"), aDF.id == bDF.id, "outer").drop(col("b.id")).show()

+----+----+----+
|  id|datA|datB|
+----+----+----+
|   1|  a1|null|
|   3|  a3|  b3|
|   2|  a2|  b2|
|null|null|  b4|
+----+----+----+
于 2019-04-13T21:21:39.497 回答
-2

您可以像这样删除列:

df.drop("column Name).columns

在你的情况下:

df.drop("id").columns

如果你想删除多于一列,你可以这样做:

dfWithLongColName.drop("ORIGIN_COUNTRY_NAME", "DEST_COUNTRY_NAME")
于 2019-06-06T08:14:34.230 回答