5

我有一个较大的熊猫数据框(磁盘上的 1.5gig .csv)。我可以将它加载到内存中并查询它。我想创建一个新列,它是其他两列的组合值,我尝试了这个:

def combined(row):
    row['combined'] = row['col1'].join(str(row['col2']))
return row

df = df.apply(combined, axis=1)

这导致我的 python 进程被杀死,大概是因为内存问题。

该问题的一个更迭代的解决方案似乎是:

df['combined'] = ''
col_pos = list(df.columns).index('combined')
crs_pos = list(df.columns).index('col1')
sub_pos = list(df.columns).index('col2')

for row_pos in range(0, len(df) - 1):
    df.iloc[row_pos, col_pos] = df.iloc[row_pos, sub_pos].join(str(df.iloc[row_pos, crs_pos]))

这当然看起来很不熊猫。而且速度很慢。

理想情况下,我想要apply_chunk()与 apply 相同但仅适用于数据框的一部分。我认为dask这可能是一个选择,但是dask当我使用数据框时,它们似乎还有其他问题。不过,这一定是一个常见问题,我应该使用一种设计模式来向大型熊猫数据框添加列吗?

4

2 回答 2

4

我会尝试使用列表理解 + itertools

df = pd.DataFrame({
    'a': ['ab'] * 200,
    'b': ['ffff'] * 200
})


import itertools

[a.join(b) for (a, b) in itertools.izip(df.a, df.b)]

它可能是“unpandas”,但 pandas 似乎没有.str一种可以帮助您的方法,而且它不是“unpythonic”。

要创建另一列,只需使用:

df['c'] = [a.join(b) for (a, b) in itertools.izip(df.a, df.b)]

顺便说一句,您还可以使用以下方法进行分块:

[a.join(b) for (a, b) in itertools.izip(df.a[10: 20], df.b[10: 20])]

如果您想玩并行化。我会首先尝试上面的版本,因为列表理解和 itertools 的速度通常非常快,并且并行化需要额外的开销。

于 2015-07-22T20:44:42.323 回答
1

pandas在or中创建新列的一种好方法dask.dataframe 是使用该.assign方法。

In [1]: import pandas as pd

In [2]: df = pd.DataFrame({'x': [1, 2, 3, 4], 'y': ['a', 'b', 'a', 'b']})

In [3]: df
Out[3]: 
   x  y
0  1  a
1  2  b
2  3  a
3  4  b

In [4]: df.assign(z=df.x * df.y)
Out[4]: 
   x  y     z
0  1  a     a
1  2  b    bb
2  3  a   aaa
3  4  b  bbbb

但是,如果您的操作是高度自定义的(看起来如此)并且 Python 迭代器足够快(看起来如此),那么您可能只想坚持下去。每当您发现自己在使用applyiloc处于循环中时,Pandas 的运行速度都可能比最佳状态慢得多。

于 2015-07-22T22:25:42.903 回答