python - Pandas HDFStore：使用选择功能和直接访问的区别

Question

给定一个 pandas HDFStore 包含一个DataFrame：

import pandas as pd
import numpy.random as rd

df = pd.DataFrame(rd.randn(int(1000)).reshape(500, 2), columns=list('ab'))
store = pd.HDFStore('store.h5')
store.append('df', df, data_columns=['a', 'b'])

我可以使用该select函数来检索数据的子集，如下所示：

store.select('df', ['a > 0', 'b > 0'])

但是，如果我使用的普通命令DataFrame不在HDFStore:

store.df[(store.df.a > 0) & (store.df.b > 0)]

这两种方法有区别吗？如果是这样，有什么区别？

score 1 · Accepted Answer

如果您运行一些基准测试，您会发现以下内容

%timeit store.select('df', ['a > 0', 'b > 0'])
100 loops, best of 3: 2.63 ms per loop
%timeit store.df[(store.df.a > 0) & (store.df.b > 0)]
100 loops, best of 3: 6.01 ms per loop

这表明第一个选择访问文件的次数比第二种方法少。具体如下

%timeit store.df.a > 0
100 loops, best of 3: 1.84 ms per loop
%timeit store.df.b > 0
1000 loops, best of 3: 1.82 ms per loop

大约需要2ms，然后您需要根据两者的逻辑AND进行选择。只有，然后您需要应用最终过滤器。相反，选择只访问一次数据！

python - Pandas HDFStore：使用选择功能和直接访问的区别

1 回答 1

Related

Reference