我是 python 新手,我目前正在努力用熊猫做简单的事情。我想将相同的函数应用于给定数据集的每个项目,但使用与时间相关的参数。
我正在使用DataFrame
以时间戳作为索引的熊猫。
比方说:
a(i,j) 是数据帧 A 中第 j 列中的第 i 个元素(时间戳/索引 = i 和列 = j)
b(i) 是数据框 B 中的第 i 个元素(单列)
我想计算:
c(i, j) = fct(a(i, j), b(i))
其中 fct 是一个有两个参数的函数 z = fct(x, y)
我编写了一个可以正确执行的代码,但它可能不是最佳的(非常慢)。对于示例,我只使用了一个简单的函数 fct(但实际上它更复杂)
输入:
- df_data:
pandas.DataFrame
索引=时间戳和几列 - df_parameter:
pandas.DataFrame
1 列包含时间相关参数
这是代码:
# p.concat is required as timestamps are not identical in df_data & df_parameters
import numpy as np
import pandas as p
temp = p.concat([df_data, df_parameter], join='inner', axis=1)
index = temp.index
np_data = temp[nacelleWindSpeeds.columns].values
np_parameter = temp[airDensity.columns].values
import math
def fct(x, y):
return math.pow(x, y)
def test(np_data, np_parameter):
np_result = np.empty(np_data.shape, dtype=float)
it = np.nditer(np_data, flags=['multi_index'])
while not it.finished:
np_result[it.multi_index] = fct(it[0].item(),
np_parameter[it.multi_index[0]][0])
it.iternext()
df_final=p.DataFrame(data=np_result, index=index)
return df_final
final=test(np_data, np_parameter)
final.to_csv(r'C:\temp\test.csv', sep=';')
以下是一些示例数据:
df_data
01/03/2010 00:00 ; 9 ; 5 ; 7
01/03/2010 00:10 ; 9 ; 1 ; 4
01/03/2010 00:20 ; 5 ; 3 ; 8
01/03/2010 00:30 ; 7 ; 7 ; 1
01/03/2010 00:40 ; 8 ; 2 ; 3
01/03/2010 00:50 ; 0 ; 3 ; 4
01/03/2010 01:00 ; 4 ; 3 ; 2
01/03/2010 01:10 ; 6 ; 2 ; 2
01/03/2010 01:20 ; 6 ; 8 ; 5
01/03/2010 01:30 ; 7 ; 7 ; 0
df_parameter
01/03/2010 00:00 ; 2
01/03/2010 00:10 ; 5
01/03/2010 00:20 ; 2
01/03/2010 00:30 ; 3
01/03/2010 00:40 ; 0
01/03/2010 00:50 ; 2
01/03/2010 01:00 ; 4
01/03/2010 01:10 ; 3
01/03/2010 01:20 ; 3
01/03/2010 01:30 ; 1
最后
01/03/2010 00:00 ; 81 ; 25 ; 49
01/03/2010 00:10 ; 59049 ; 1 ; 1024
01/03/2010 00:20 ; 25 ; 9 ; 64
01/03/2010 00:30 ; 343 ; 343 ; 1
01/03/2010 00:40 ; 1 ; 1 ; 1
01/03/2010 00:50 ; 0 ; 9 ; 16
01/03/2010 01:00 ; 256 ; 81 ; 16
01/03/2010 01:10 ; 216 ; 8 ; 8
01/03/2010 01:20 ; 216 ; 512 ; 125
01/03/2010 01:30 ; 7 ; 7 ; 0
非常感谢您的帮助,
帕特里克