问题标签 [hdfstore]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用odo转换pandas hdfstore时维护数据列
我正在使用 blaze 项目中的 odo 按照以下问题中的建议合并多个 pandas hdfstore 表:连接两个大熊猫.HDFStore HDF5 文件
这些商店在设计上具有相同的列和不重叠的索引以及几百万行。单个文件可能适合内存,但总组合文件可能不适合。
有没有办法可以保留创建 hdfstore 的设置?我松开了数据列和压缩设置。
我试过odo(part, whole, datacolumns=['col1','col2'])
没有运气。
或者,将不胜感激对替代方法的任何建议。我当然可以手动执行此操作,但我必须管理块大小以免内存不足。
python - Python Pandas hdfstore 的 select(where='') 返回不合格的结果
当我像这样查询一个大的 hdfstore 文件(>10G)时:
我得到了大多数条目的 node_id 为 1 的结果,但有些条目的 node_id 不是 1。这是 hdfstore 故障,还是我做错了什么?
以下是部分结果,您可以看到一些 node_id 不是 1 的条目。
注意到第 300002 行是一个不需要的结果,我尝试在该特定区域周围选择节点 1,如下所示:
结果中仅返回节点 3:
然后我尝试使用索引而不是像这样开始/停止:
这一次它返回了正确的结果:
我想我可能会通过索引选择来解决这个问题,但我不完全确定,因为带有启动/停止的方法在大多数情况下也能得到正确的结果,所以即使带有索引的方法在开始/停止的地方得到了正确的结果失败了,它可能会在其他地方失败。
而且我真的很希望启动/停止方法能够工作,因为它要快得多,而且我有一个大数据集,一个慢的方法真的很耗时。
顺便说一句,如果您想知道,我不能像这样使用“chunksize”:
每次我尝试 chunksize 我都会得到一个这样的MemoryError。面对很多问题,Pandas 对于我这样的新手来说真的很难。任何帮助是极大的赞赏。
python - Python pandas HDFstore 附加缺少列的数据框
假设我已经有一个 hdfstore,有 3 列 [a,b,c],其 dtype 为 [uint32,int64,datetime64[ns]]
问题是如何附加缺少列的数据框。说缺少列'c',我尝试仅附加[a,b],我不能直接这样做,因为数据框cannot match existing table structure
我尝试重新索引包括列'c'的数据框,但它仍然不起作用,因为默认情况下新列'c'都是NaN,并且它的dtype是float64,仍然不匹配。
因此,我尝试使用.astype(datetime64[ns])更改其 dtype,但此方法也不起作用,dtype 保持不变。
现在我被困住了,如何将此部分列数据框附加到 HDFstore 中?
python-3.x - Anaconda3 libhdf5.so.9:无法打开共享对象文件[在 py2.7 上工作正常,但在 py3.4 上不行]
我只是尝试pd.HDFStore
在带有 Python 3 内核的 IPython Notebook 中使用(Ubuntu 14.04 上的 Anaconda 2&3)
但它会引发以下错误
我最初以为是因为pytables
不知何故丢失了,但是当我检查$source activate py34
and时$conda list
,pytables 3.2.0
已经安装在 anaconda python3 环境下。
此外,例如,如果我切换到 Python 2$source activate py27
并 start ipython notebook
,它可以正常工作并且不会引发导入错误。
我想我必须错过pytables
在 anaconda python 3 env 下配置的一些东西,但我无法弄清楚。非常感谢任何帮助。
更新:
我刚刚尝试从官方网站进行全新安装,Anaconda3-2.3.0-Linux-x86_64
但最终出现相同的错误。当我在命令行中尝试$locate libhdf5.so.9
时,什么都没有出现。
pandas - 使用 pandas 将带有字符串值的 DataFrame 块附加到大型 HDF5 文件的异常
pandas.DataFrame()
在文件大小大于大约 47 GiB 后,将字符串值(数值可以)附加到 HDF5 存储时会发生异常。字符串的最小大小、记录数、列数都不重要。文件大小很重要。
异常跟踪的底部:
重现的代码:
环境:Windows7 x64机器,python 3.4.3,pandas 0.16.2,pytables 3.2.0,HDF5 1.8.14。
问题是如果它位于上面的 python 代码中,如何解决问题,或者如果与 HDF5 相关,如何避免它。谢谢。
python - 使用 Pandas 从 HDFStore 读取特殊字符时出现 UnicodeDecode 错误
我需要在 HDFStore 中存储很多消息,其中一些包含表情符号或特殊字符,例如 éěščřžýáí。一切似乎都正常,直到我尝试加载它,然后它崩溃并出现以下错误。这是以错误结尾的示例代码
这是错误
我有 Pandas 0.16.2 和 PyTables 3.2.2
python - Pandas HDFStore:使用分层周期索引保存和检索系列
我首先创建了一个具有二维层次索引的系列。他们的索引类型是 (pandas.period, numpy.int32)
然后,我使用 HDFStore 保存系列(ts1)并检索它(作为 ts2):
现在,检索到的系列 (ts2) 的索引的 dtype 已更改为整数:
有没有办法正确保存系列?我知道我可以在检索数据后更改类型,但我更喜欢干净利落地完成这项工作。
我正在使用 pandas 0.16.1 和 pyhon 2.7.7(Anaconda 2.0.1(64 位))
python - 如何在 Django 模型字段中存储 HDF5(HDF 存储)
我目前正在从事一个项目,我在该项目中生成 pandas DataFrames 作为分析结果。我在 Django 中进行开发,并希望在“结果”模型中使用“数据”字段来存储熊猫 DataFrame。
看来 HDF5(HDF Store) 是存储我的 pandas DataFrames 的最有效方式。但是,我不知道如何在我的模型中创建自定义字段来保存它。我将在下面展示简化的 views.py 和 models.py 来说明。
模型.py
视图.py
我很感激任何帮助,我也愿意接受另一种存储方法,例如 Pickle,只要我可以将它与 Django 一起使用,它具有类似的性能。
python - 尽管 'index=None' 使用 pandas 'to_hdf' 重复索引
我想将数据存储在 HDFS 文件中,但将新数据附加到该文件会使索引重复。请问我怎样才能避免它?
添加值index=None
索引现在重复...
我正在使用熊猫0.17.0
,Python3.4.3
谢谢。
python - 当列名为整数时,根据值从 HDFStore 表中选择数据
我正在使用 a pandas.HDFStore
,但我找不到我想做的事情的解释,即使用select
带有值过滤器的方法。
这是我想要实现的目标:我的table
商店中有一个,其中的列是看起来像整数的字符串,我希望能够过滤文档中所写的值:
我的列名称如下:
所以,我只是尝试了这个:
但我得到了以下异常:
我也尝试了以下表达式,但结果是一样的:
在这种情况下,有人给我小费吗?
请注意,我更愿意保留这些列名称,因为它们在我的代码的其他部分用作键。
附加说明:我已经可以做这样很酷的事情了: