下面的代码表明,pandas 可能比 numpy 慢得多,至少在函数 clip() 的特定情况下是这样。令人惊讶的是,从 pandas 到 numpy 再到 pandas 的往返,虽然在 numpy 中执行计算,但仍然比在 pandas 中快得多。
pandas功能不应该是这样迂回实现的吗?
In [49]: arr = np.random.randn(1000, 1000)
In [50]: df=pd.DataFrame(arr)
In [51]: %timeit np.clip(arr, 0, None)
100 loops, best of 3: 8.18 ms per loop
In [52]: %timeit df.clip_lower(0)
1 loops, best of 3: 344 ms per loop
In [53]: %timeit pd.DataFrame(np.clip(df.values, 0, None))
100 loops, best of 3: 8.4 ms per loop