64

假设我有一个数据表

    1  2  3  4  5  6 ..  n
A   x  x  x  x  x  x ..  x
B   x  x  x  x  x  x ..  x
C   x  x  x  x  x  x ..  x

而且我想精简它,这样我就只有第 3 列和第 5 列删除所有其他内容并保持结构。我怎么能用熊猫做到这一点?我想我了解如何删除单个列,但我不知道如何保存一些选择并删除所有其他列。

4

4 回答 4

107

如果你有一个列列表,你可以选择那些:

In [11]: df
Out[11]:
   1  2  3  4  5  6
A  x  x  x  x  x  x
B  x  x  x  x  x  x
C  x  x  x  x  x  x

In [12]: col_list = [3, 5]

In [13]: df = df[col_list]

In [14]: df
Out[14]:
   3  5
A  x  x
B  x  x
C  x  x
于 2013-05-17T19:24:38.180 回答
24

如何将某些列保留在 pandas DataFrame 中,删除其他所有内容?

这个问题的答案与“如何删除 pandas DataFrame 中的某些列?”的答案相同。以下是到目前为止提到的一些附加选项,以及时间安排。

DataFrame.loc

如其他答案所述,一个简单的选择是选择,

# Setup.
df
   1  2  3  4  5  6
A  x  x  x  x  x  x
B  x  x  x  x  x  x
C  x  x  x  x  x  x

cols_to_keep = [3,5]

df[cols_to_keep]

   3  5
A  x  x
B  x  x
C  x  x

或者,

df.loc[:, cols_to_keep]

   3  5
A  x  x
B  x  x
C  x  x

DataFrame.reindexaxis=1'columns'(0.21+ )

但是,在您指定删除reindex的最新版本中,我们也有:axis=1

df.reindex(cols_to_keep, axis=1)
# df.reindex(cols_to_keep, axis='columns')

# for versions < 0.21, use
# df.reindex(columns=cols_to_keep)

   3  5
A  x  x
B  x  x
C  x  x

在旧版本上,您还可以使用reindex_axis: df.reindex_axis(cols_to_keep, axis=1)


DataFrame.drop

另一种选择是使用drop通过以下方式选择列pd.Index.difference

# df.drop(cols_to_drop, axis=1)
df.drop(df.columns.difference(cols_to_keep), axis=1)

   3  5
A  x  x
B  x  x
C  x  x

表现

在此处输入图像描述

这些方法在性能方面大致相同;reindex较小的 Ndrop更快,而较大的 N 更快。性能是相对的,因为 Y 轴是对数的。

设置和代码

import pandas as pd
import perfplot

def make_sample(n):
    np.random.seed(0)
    df = pd.DataFrame(np.full((n, n), 'x'))
    cols_to_keep = np.random.choice(df.columns, max(2, n // 4), replace=False)

    return df, cols_to_keep 

perfplot.show(
    setup=lambda n: make_sample(n),
    kernels=[
        lambda inp: inp[0][inp[1]],
        lambda inp: inp[0].loc[:, inp[1]],
        lambda inp: inp[0].reindex(inp[1], axis=1),
        lambda inp: inp[0].drop(inp[0].columns.difference(inp[1]), axis=1)
    ],
    labels=['__getitem__', 'loc', 'reindex', 'drop'],
    n_range=[2**k for k in range(2, 13)],
    xlabel='N',   
    logy=True,
    equality_check=lambda x, y: (x.reindex_like(y) == y).values.all()
)
于 2019-01-22T20:10:23.640 回答
12

您可以为您的DataFrame,重新分配一个新值df

df = df.loc[:,[3, 5]]

只要没有其他对 originalDataFrame的引用,旧的DataFrame就会被垃圾收集。

请注意,使用时df.loc,索引由标签指定。因此,上面3并且5不是序数,它们代表列的标签名称。如果您希望按序号索引指定列,请使用df.iloc.

于 2013-05-17T19:03:20.483 回答
3

对于那些正在寻找就地执行此操作的方法的人:

from pandas import DataFrame
from typing import Set, Any
def remove_others(df: DataFrame, columns: Set[Any]):
    cols_total: Set[Any] = set(df.columns)
    diff: Set[Any] = cols_total - columns
    df.drop(diff, axis=1, inplace=True)

这将创建数据框中所有列的补集以及应删除的列。这些可以安全地删除。Drop 甚至适用于空集。

>>> df = DataFrame({"a":[1,2,3],"b":[2,3,4],"c":[3,4,5]})
>>> df
   a  b  c
0  1  2  3
1  2  3  4
2  3  4  5

>>> remove_others(df, {"a","b","c"})
>>> df
   a  b  c
0  1  2  3
1  2  3  4
2  3  4  5

>>> remove_others(df, {"a"})
>>> df
   a
0  1
1  2
2  3

>>> remove_others(df, {"a","not","existent"})
>>> df
   a
0  1
1  2
2  3
于 2018-07-11T12:51:23.417 回答