pandas
我有可以在dask
. 这里有一个部分解决方案,但它不允许我使用变量作为我分配给的列的名称。
这是工作pandas
代码:
percent_cols = ['num_unique_words', 'num_words_over_6']
def find_fraction(row, col):
return row[col] / row['num_words']
for c in percent_cols:
df[c] = df.apply(find_fraction, col=c, axis = 1)
这是损坏的dask
代码:
data = dd.from_pandas(df, npartitions=8)
for c in percent_cols:
data = data.assign(c = data[c] / data.num_words)
这会将结果分配给一个名为的新列,c
而不是修改data[c]
(我想要的)的值。如果我可以将列名作为变量,那么创建一个新列会很好。例如,如果这有效:
for c in percent_cols:
name = c + "new"
data = data.assign(name = data[c] / data.num_words)
出于显而易见的原因,python 不允许在 an 左侧使用表达式=
,因此会忽略name
.
如何使用变量作为列名?for 循环的迭代次数远远超过我愿意复制/粘贴的次数。