python - 向量化 Pandas 数据帧

Question

这是一个数据清理练习，其中数据帧 A 的特定元素应设置为 NaN，具体取决于通过 B 解码的值。

我编写了以下代码，其中 3 嵌套循环将运行 17 小时：

def Convert(input):
    X = np.fromstring(input[1:-1], dtype=np.int, sep=',')
    return X
tf = B
# B is a dataframe of descriptors for the A dataframe
# the column 'missing_or_unknown' in B is used to determine the elements of A to be replaced
tf['missing_or_unknown'] = B['missing_or_unknown'].apply(lambda x: Convert(x))
Y = tf['missing_or_unknown'].values
for i in range(0,len(A)):
    for j in range(0,85):
        for k in range (0,len(Y[j])):
            if A.iloc[i,j] == Y[j][k]:
                A[i,j] = np.nan

我怀疑瓶颈是长的外循环，因为len(A)大约是 100 万。所以，这不是使用 Pandas 的最佳方式，我会改为：

for j in range(0,85):
      for k in range (0,len(Y[j])):
        if A.iloc[:,j] == Y[j][k]:
                A.iloc[:,j] = np.nan

然而，后者抛出一个异常：

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()

2个问题：

我对性能瓶颈和矢量化的好处说得对吗
如何正确表达if条件
Y的计算并不昂贵，它是一个查找数组来确定如何操作A数据帧

score 1 · Accepted Answer

如果您想用np.nanA 的任何条目替换等于 Y 在相同位置的条目，您可以使用：

A[A==Y]=np.nan

这能解决你的问题吗？

您的第一个代码有效，但速度很慢。

您的第二个代码不起作用，因为 if 语句将整个列（Series）A.iloc[:,j]与一个值进行比较，您可以.any()按照建议使用。

在这里，我比较了我的代码的速度，你第一次尝试两个尺寸为 100x85 的数据帧：

import time
A = pd.DataFrame(np.zeros([100,85]))
A.iloc[0,1] = 1
Y = pd.DataFrame(np.ones([100,85]))
start_time = time.time()
A[A==Y]=np.nan
print("--- %s seconds ---" % (time.time() - start_time))
--- 0.030421018600463867 seconds ---

start_time = time.time()
for i in range(0,len(A)):
for j in range(0,85):
    for k in range (0,len(Y[j])):
        if A.iloc[i,j] == Y[j][k]:
            A[i,j] = np.nan
print("--- %s seconds ---" % (time.time() - start_time))
--- 17.413578748703003 seconds ---

python - 向量化 Pandas 数据帧

1 回答 1

Related

Reference