python - 从 pandas.HDFStore 表中选择列

Question

如何从熊猫 HDFStore 中检索特定列？我经常处理非常大的数据集，这些数据集太大而无法在内存中进行操作。我想迭代地读取 csv 文件，将每个块附加到 HDFStore 对象中，然后处理数据的子集。我已经阅读了一个简单的 csv 文件，并使用以下代码将其加载到 HDFStore 中：

tmp = pd.HDFStore('test.h5')
chunker = pd.read_csv('cars.csv', iterator=True, chunksize=10, names=['make','model','drop'])
tmp.append('df', pd.concat([chunk for chunk in chunker], ignore_index=True))

和输出：

In [97]: tmp
Out[97]:
<class 'pandas.io.pytables.HDFStore'>
File path: test.h5
/df     frame_table (typ->appendable,nrows->1930,indexers->[index])

我的问题是如何访问特定列tmp['df']？该文档提到了一种select()方法和一些Term对象。提供的示例适用于面板数据；但是，我太新手了，无法将其扩展到更简单的数据框案例。我的猜测是我必须以某种方式创建列的索引。谢谢！

score 13 · Accepted Answer

HDFStore 记录表的方式，列按类型存储为单个 numpy 数组。您总是可以取回所有列，您可以对其进行过滤，因此您会根据您的要求返回。在 0.10.0 中，您可以传递一个涉及列的术语。

store.select('df', [ Term('index', '>', Timestamp('20010105')), 
                     Term('columns', '=', ['A','B']) ])

或者你可以在之后重新索引

df = store.select('df', [ Term('index', '>', Timestamp('20010105') ])
df.reindex(columns = ['A','B'])

这axes并不是真正的解决方案（您实际创建的实际上是存储转置帧）。此参数允许您重新排序轴的存储，以便以不同的方式启用数据对齐。对于数据框来说，它真的没有多大意义。对于 3d 或 4d 结构，磁盘数据对齐对于真正快速的查询至关重要。

0.10.1 将允许一个更优雅的解决方案，即数据列，即您可以选择某些列来表示为表存储中有自己的列，因此您真的可以只选择它们。这是即将到来的味道。

 store.append('df', columns = ['A','B','C'])
 store.select('df', [ 'A > 0', Term('index', '>', Timestamp(2000105)) ])

另一种方法是在文件的不同节点中存储单独的表，然后您可以只选择您需要的。

一般来说，我再次推荐非常宽的桌子。hayden 提供了 Panel 解决方案，这可能对您现在有好处，因为实际的数据排列应该反映您希望如何查询数据。

score 12 · Accepted Answer

您可以使用列的索引来存储数据框，如下所示：

import pandas as pd
import numpy as np
from pandas.io.pytables import Term

index = pd.date_range('1/1/2000', periods=8)
df = pd.DataFrame( np.random.randn(8,3), index=index, columns=list('ABC'))  

store = pd.HDFStore('mydata.h5')
store.append('df_cols', df, axes='columns')

然后根据您的希望选择：

In [8]: store.select('df_cols', [Term('columns', '=', 'A')])
Out[8]: 
2000-01-01    0.347644
2000-01-02    0.477167
2000-01-03    1.419741
2000-01-04    0.641400
2000-01-05   -1.313405
2000-01-06   -0.137357
2000-01-07   -1.208429
2000-01-08   -0.539854

在哪里：

In [9]: df
Out[9]: 
                   A         B         C
2000-01-01  0.347644  0.895084 -1.457772
2000-01-02  0.477167  0.464013 -1.974695
2000-01-03  1.419741  0.470735 -0.309796
2000-01-04  0.641400  0.838864 -0.112582
2000-01-05 -1.313405 -0.678250 -0.306318
2000-01-06 -0.137357 -0.723145  0.982987
2000-01-07 -1.208429 -0.672240  1.331291
2000-01-08 -0.539854 -0.184864 -1.056217

.

对我来说，这不是一个理想的解决方案，因为我们只能通过一件事来索引 DataFrame！令人担忧的是，文档似乎建议您只能通过一件事来索引 DataFrame，至少使用axes：

将轴关键字与维度列表一起传递（当前必须比对象的总维度小 1）。

我可能读错了，在这种情况下，希望有人能证明我错了！

.

注意：我发现通过两件事（索引和列）对 DataFrame 进行索引的一种方法是将其转换为 Panel，然后可以使用两个索引进行检索。但是，每次检索项目时，我们都必须将所选子面板转换为 DataFrame ......再次，不理想。

score 0 · Accepted Answer

从现在开始，U 可以使用查询表达式代替Term构造。例如：store.select('df', "index > Timestamp('20000105')")

python - 从 pandas.HDFStore 表中选择列

3 回答 3

Related

Reference