1

我使用以下代码在/中存储了一个包含大量NaN值的大数据集:HDFStorepythonpandas

with get_store(work_path+'/stores/store.h5') as store:
        for chunk in reader:
            for column in column_list:
                store.append('%s' % column, chunk[column],
                             data_columns=column)

然后我想将第一列加载为numpy数组,所以我有:

array = store.select(column_list[0]).as_matrix()

问题是我得到了一个没有任何初始NaN值的小数组,因为当我将数据存储在存储中时,它有点“忘记”这些NaN值,只保留非NaN值及其索引。如何取回具有初始NaN值的数组?

4

1 回答 1

4

你需要通过dropna=False,看这里

仅供参考,您本质上是在创建一个列存储(这可能更适合您的问题,也可能不适合您的问题)。

于 2014-09-19T14:16:45.500 回答