109

我正在使用pandas库,我想将两个新列添加到df具有 n 列(n > 0)的数据框中。
这些新列是由于将函数应用于数据框中的一列而产生的。

应用的函数如下:

def calculate(x):
    ...operate...
    return z, y

为仅返回值的函数创建新列的一种方法是:

df['new_col']) = df['column_A'].map(a_function)

所以,我想要的,但没有成功(*),是这样的:

(df['new_col_zetas'], df['new_col_ys']) = df['column_A'].map(calculate)

实现这一目标的最佳方法是什么?我毫无头绪地扫描了文档

**df['column_A'].map(calculate)返回一个熊猫系列,每个项目由一个元组 z, y 组成。并尝试将其分配给两个数据框列会产生 ValueError。*

4

2 回答 2

130

我只是使用zip

In [1]: from pandas import *

In [2]: def calculate(x):
   ...:     return x*2, x*3
   ...: 

In [3]: df = DataFrame({'a': [1,2,3], 'b': [2,3,4]})

In [4]: df
Out[4]: 
   a  b
0  1  2
1  2  3
2  3  4

In [5]: df["A1"], df["A2"] = zip(*df["a"].map(calculate))

In [6]: df
Out[6]: 
   a  b  A1  A2
0  1  2   2   3
1  2  3   4   6
2  3  4   6   9
于 2012-09-10T17:20:49.987 回答
53

在我看来,最佳答案是有缺陷的。希望没有人会使用from pandas import *. 此外,map在传递字典或系列时,该方法应保留用于那些时间。它可以有一个功能,但这就是apply它的用途。

所以,如果你必须使用上述方法,我会这样写

df["A1"], df["A2"] = zip(*df["a"].apply(calculate))

实际上没有理由在这里使用 zip 。你可以简单地这样做:

df["A1"], df["A2"] = calculate(df['a'])

第二种方法在较大的 DataFrame 上也快得多

df = pd.DataFrame({'a': [1,2,3] * 100000, 'b': [2,3,4] * 100000})

使用 300,000 行创建的 DataFrame

%timeit df["A1"], df["A2"] = calculate(df['a'])
2.65 ms ± 92.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit df["A1"], df["A2"] = zip(*df["a"].apply(calculate))
159 ms ± 5.24 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

比 zip 快 60 倍


一般来说,避免使用 apply

Apply 通常并不比迭代 Python 列表快多少。让我们测试一个 for 循环的性能来做和上面一样的事情

%%timeit
A1, A2 = [], []
for val in df['a']:
    A1.append(val**2)
    A2.append(val**3)

df['A1'] = A1
df['A2'] = A2

298 ms ± 7.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

所以这慢了一倍,这并不是一个糟糕的性能回归,但如果我们对上述内容进行 cythonize,我们会获得更好的性能。假设您正在使用 ipython:

%load_ext cython

%%cython
cpdef power(vals):
    A1, A2 = [], []
    cdef double val
    for val in vals:
        A1.append(val**2)
        A2.append(val**3)

    return A1, A2

%timeit df['A1'], df['A2'] = power(df['a'])
72.7 ms ± 2.16 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

不申请直接赋值

如果您使用直接矢量化操作,您可以获得更大的速度提升。

%timeit df['A1'], df['A2'] = df['a'] ** 2, df['a'] ** 3
5.13 ms ± 320 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

这利用了 NumPy 极快的向量化操作而不是我们的循环。我们现在比原来的速度提高了 30 倍。


最简单的速度测试apply

上面的例子应该清楚地显示出有多慢apply,但是为了更加清楚,让我们看一下最基本的例子。让我们对包含和不包含 apply 的 1000 万个数字系列进行平方

s = pd.Series(np.random.rand(10000000))

%timeit s.apply(calc)
3.3 s ± 57.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

不应用速度快 50 倍

%timeit s ** 2
66 ms ± 2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
于 2017-11-03T18:08:47.357 回答