我在一个充满栅格的列表上使用 for 循环。在每个栅格中,我提取一个数据数组,并且我想使用栅格的基本名称(日期)作为该数组的索引。为此,我使用 Pandas DataFrame 多索引。然后将包含新集合索引的数组附加到 HDFStore。接下来选择具有另一个日期的栅格
代码片段:
root, ext = os.path.splitext(raster)
name = int(decimal.Decimal(os.path.basename(root)))
array = ma.MaskedArray.compressed(raster)
arr2df = pd.DataFrame(pd.Series(data = array), columns=['rastervalue'])
arr2df['timestamp'] = pd.Series(name,index=arr2df.index)
arr2df.set_index('timestamp')
store.append('rastervalue',arr2df)
DataFrame 似乎没问题(顺便说一句,我怎样才能检索 MultiIndex?)。
>>> arr2df
<class 'pandas.core.frame.DataFrame'>
MultiIndex: 123901 entries, (0, 20060101) to (123900, 20060101)
Data columns (total 1 columns):
rastervalue 123901 non-null values
dtypes: int32(1)
但是在我检查 HDFStore 的那一刻,我的多索引似乎消失了,变成了“values_block_1”
>>> store.root.rastervalue.table.read
<bound method Table.read of /rastervalue/table (Table(12626172,)) ''
description := {
"index": Int64Col(shape=(), dflt=0, pos=0),
"values_block_0": Int32Col(shape=(1,), dflt=0, pos=1),
"values_block_1": Int64Col(shape=(1,), dflt=0, pos=2)}
byteorder := 'little'
chunkshape := (3276,)
autoIndex := True
colindexes := {
"index": Index(6, medium, shuffle, zlib(1)).is_CSI=False}>
>>> store.root.rastervalue.table.read(field="values_block_1")
array([[20060101],
[20060101],
[20060101],
...,
[ 20060914],
[ 20060914],
[ 20060914]], dtype=int64)
通过阅读文档,我无法弄清楚如何正确存储或更改 HDFStore 中的 MultiIndex。有什么建议么?最终我想查询表为:
store.select('rastervalue', [ pd.Term('index', '=', '20060101')])