问题标签 [hdfstore]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
476 浏览

python - 使用odo转换pandas hdfstore时维护数据列

我正在使用 blaze 项目中的 odo 按照以下问题中的建议合并多个 pandas hdfstore 表:连接两个大熊猫.HDFStore HDF5 文件

这些商店在设计上具有相同的列和不重叠的索引以及几百万行。单个文件可能适合内存,但总组合文件可能不适合。

有没有办法可以保留创建 hdfstore 的设置?我松开了数据列和压缩设置。

我试过odo(part, whole, datacolumns=['col1','col2'])没有运气。

或者,将不胜感激对替代方法的任何建议。我当然可以手动执行此操作,但我必须管理块大小以免内存不足。

0 投票
1 回答
246 浏览

python - Python Pandas hdfstore 的 select(where='') 返回不合格的结果

当我像这样查询一个大的 hdfstore 文件(>10G)时:

我得到了大多数条目的 node_id 为 1 的结果,但有些条目的 node_id 不是 1。这是 hdfstore 故障,还是我做错了什么?

以下是部分结果,您可以看到一些 node_id 不是 1 的条目。

注意到第 300002 行是一个不需要的结果,我尝试在该特定区域周围选择节点 1,如下所示:

结果中仅返回节点 3:

然后我尝试使用索引而不是像这样开始/停止:

这一次它返回了正确的结果:

我想我可能会通过索引选择来解决这个问题,但我不完全确定,因为带有启动/停止的方法在大多数情况下也能得到正确的结果,所以即使带有索引的方法在开始/停止的地方得到了正确的结果失败了,它可能会在其他地方失败。

而且我真的很希望启动/停止方法能够工作,因为它要快得多,而且我有一个大数据集,一个慢的方法真的很耗时。

顺便说一句,如果您想知道,我不能像这样使用“chunksize”:

每次我尝试 chunksize 我都会得到一个这样的MemoryError。面对很多问题,Pandas 对于我这样的新手来说真的很难。任何帮助是极大的赞赏。

0 投票
0 回答
177 浏览

python - Python pandas HDFstore 附加缺少列的数据框

假设我已经有一个 hdfstore,有 3 列 [a,b,c],其 dtype 为 [uint32,int64,datetime64[ns]]

问题是如何附加缺少列的数据框。说缺少列'c',我尝试仅附加[a,b],我不能直接这样做,因为数据框cannot match existing table structure

我尝试重新索引包括列'c'的数据框,但它仍然不起作用,因为默认情况下新列'c'都是NaN,并且它的dtype是float64,仍然不匹配。

因此,我尝试使用.astype(datetime64[ns])更改其 dtype,但此方法也不起作用,dtype 保持不变。

现在我被困住了,如何将此部分列数据框附加到 HDFstore 中?

0 投票
1 回答
1274 浏览

python-3.x - Anaconda3 libhdf5.so.9:无法打开共享对象文件[在 py2.7 上工作正常,但在 py3.4 上不行]

我只是尝试pd.HDFStore在带有 Python 3 内核的 IPython Notebook 中使用(Ubuntu 14.04 上的 Anaconda 2&3)

但它会引发以下错误

我最初以为是因为pytables不知何故丢失了,但是当我检查$source activate py34and时$conda listpytables 3.2.0已经安装在 anaconda python3 环境下。

此外,例如,如果我切换到 Python 2$source activate py27并 start ipython notebook,它可以正常工作并且不会引发导入错误。

我想我必须错过pytables在 anaconda python 3 env 下配置的一些东西,但我无法弄清楚。非常感谢任何帮助。

更新:

我刚刚尝试从官方网站进行全新安装,Anaconda3-2.3.0-Linux-x86_64但最终出现相同的错误。当我在命令行中尝试$locate libhdf5.so.9时,什么都没有出现。

0 投票
0 回答
313 浏览

pandas - 使用 pandas 将带有字符串值的 DataFrame 块附加到大型 HDF5 文件的异常

pandas.DataFrame()在文件大小大于大约 47 GiB 后,将字符串值(数值可以)附加到 HDF5 存储时会发生异常。字符串的最小大小、记录数、列数都不重要。文件大小很重要。

异常跟踪的底部:

重现的代码:

环境:Windows7 x64机器,python 3.4.3,pandas 0.16.2,pytables 3.2.0,HDF5 1.8.14。

问题是如果它位于上面的 python 代码中,如何解决问题,或者如果与 HDF5 相关,如何避免它。谢谢。

0 投票
1 回答
932 浏览

python - 使用 Pandas 从 HDFStore 读取特殊字符时出现 UnicodeDecode 错误

我需要在 HDFStore 中存储很多消息,其中一些包含表情符号或特殊字符,例如 éěščřžýáí。一切似乎都正常,直到我尝试加载它,然后它崩溃并出现以下错误。这是以错误结尾的示例代码

这是错误

我有 Pandas 0.16.2 和 PyTables 3.2.2

0 投票
1 回答
707 浏览

python - Pandas HDFStore:使用分层周期索引保存和检索系列

我首先创建了一个具有二维层次索引的系列。他们的索引类型是 (pandas.period, numpy.int32)

然后,我使用 HDFStore 保存系列(ts1)并检索它(作为 ts2):

现在,检索到的系列 (ts2) 的索引的 dtype 已更改为整数:

有没有办法正确保存系列?我知道我可以在检索数据后更改类型,但我更喜欢干净利落地完成这项工作。

我正在使用 pandas 0.16.1 和 pyhon 2.7.7(Anaconda 2.0.1(64 位))

0 投票
2 回答
1326 浏览

python - 如何在 Django 模型字段中存储 HDF5(HDF 存储)

我目前正在从事一个项目,我在该项目中生成 pandas DataFrames 作为分析结果。我在 Django 中进行开发,并希望在“结果”模型中使用“数据”字段来存储熊猫 DataFrame。

看来 HDF5(HDF Store) 是存储我的 pandas DataFrames 的最有效方式。但是,我不知道如何在我的模型中创建自定义字段来保存它。我将在下面展示简化的 views.py 和 models.py 来说明。

模型.py

视图.py

我很感激任何帮助,我也愿意接受另一种存储方法,例如 Pickle,只要我可以将它与 Django 一起使用,它具有类似的性能。

0 投票
1 回答
801 浏览

python - 尽管 'index=None' 使用 pandas 'to_hdf' 重复索引

我想将数据存储在 HDFS 文件中,但将新数据附加到该文件会使索引重复。请问我怎样才能避免它?

添加值index=None

索引现在重复...

我正在使用熊猫0.17.0,Python3.4.3

谢谢。

0 投票
0 回答
208 浏览

python - 当列名为整数时,根据值从 HDFStore 表中选择数据

我正在使用 a pandas.HDFStore,但我找不到我想做的事情的解释,即使用select带有值过滤器的方法。

这是我想要实现的目标:我的table商店中有一个,其中的列是看起来像整数的字符串,我希望能够过滤文档中所写的值:

我的列名称如下:

所以,我只是尝试了这个:

但我得到了以下异常:

我也尝试了以下表达式,但结果是一样的:

在这种情况下,有人给我小费吗?

请注意,我更愿意保留这些列名称,因为它们在我的代码的其他部分用作键。

附加说明:我已经可以做这样很酷的事情了: