这个问题已经得到了回答,但我相信将一些以前没有讨论过的有用方法混在一起,并比较迄今为止提出的所有方法在性能方面是很好的。
以下是针对此问题的一些有用的解决方案,按性能递增的顺序排列。
这是一种str.format
基于简单的方法。
df['baz'] = df.agg('{0[bar]} is {0[foo]}'.format, axis=1)
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
您还可以在此处使用 f 字符串格式:
df['baz'] = df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
将列转换为连接为chararrays
,然后将它们相加。
a = np.char.array(df['bar'].values)
b = np.char.array(df['foo'].values)
df['baz'] = (a + b' is ' + b).astype(str)
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
我不能夸大熊猫中的列表理解被低估的程度。
df['baz'] = [str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])]
或者,使用str.join
to concat (也将更好地扩展):
df['baz'] = [
' '.join([str(x), 'is', y]) for x, y in zip(df['bar'], df['foo'])]
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
列表推导在字符串操作方面表现出色,因为字符串操作本质上很难向量化,而且大多数 pandas “向量化”函数基本上都是循环的包装器。我在For loops with pandas - 我什么时候应该关心?. 一般来说,如果您不必担心索引对齐,请在处理字符串和正则表达式操作时使用列表推导式。
默认情况下,上面的列表 comp 不处理 NaN。但是,如果您需要处理它,您总是可以编写一个包装 try-except 的函数。
def try_concat(x, y):
try:
return str(x) + ' is ' + y
except (ValueError, TypeError):
return np.nan
df['baz'] = [try_concat(x, y) for x, y in zip(df['bar'], df['foo'])]
perfplot
性能测量
使用perfplot生成的图表。这是完整的代码清单。
功能
def brenbarn(df):
return df.assign(baz=df.bar.map(str) + " is " + df.foo)
def danielvelkov(df):
return df.assign(baz=df.apply(
lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1))
def chrimuelle(df):
return df.assign(
baz=df['bar'].astype(str).str.cat(df['foo'].values, sep=' is '))
def vladimiryashin(df):
return df.assign(baz=df.astype(str).apply(lambda x: ' is '.join(x), axis=1))
def erickfis(df):
return df.assign(
baz=df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1))
def cs1_format(df):
return df.assign(baz=df.agg('{0[bar]} is {0[foo]}'.format, axis=1))
def cs1_fstrings(df):
return df.assign(baz=df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1))
def cs2(df):
a = np.char.array(df['bar'].values)
b = np.char.array(df['foo'].values)
return df.assign(baz=(a + b' is ' + b).astype(str))
def cs3(df):
return df.assign(
baz=[str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])])