“hdfstore”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

476 浏览

python - 使用odo转换pandas hdfstore时维护数据列

我正在使用 blaze 项目中的 odo 按照以下问题中的建议合并多个 pandas hdfstore 表：连接两个大熊猫.HDFStore HDF5 文件

这些商店在设计上具有相同的列和不重叠的索引以及几百万行。单个文件可能适合内存，但总组合文件可能不适合。

有没有办法可以保留创建 hdfstore 的设置？我松开了数据列和压缩设置。

我试过odo(part, whole, datacolumns=['col1','col2'])没有运气。

或者，将不胜感激对替代方法的任何建议。我当然可以手动执行此操作，但我必须管理块大小以免内存不足。

2015-05-26T22:54:40.673

0 投票

1 回答

246 浏览

python - Python Pandas hdfstore 的 select(where='') 返回不合格的结果

当我像这样查询一个大的 hdfstore 文件（>10G）时：

我得到了大多数条目的 node_id 为 1 的结果，但有些条目的 node_id 不是 1。这是 hdfstore 故障，还是我做错了什么？

以下是部分结果，您可以看到一些 node_id 不是 1 的条目。

注意到第 300002 行是一个不需要的结果，我尝试在该特定区域周围选择节点 1，如下所示：

结果中仅返回节点 3：

然后我尝试使用索引而不是像这样开始/停止：

这一次它返回了正确的结果：

我想我可能会通过索引选择来解决这个问题，但我不完全确定，因为带有启动/停止的方法在大多数情况下也能得到正确的结果，所以即使带有索引的方法在开始/停止的地方得到了正确的结果失败了，它可能会在其他地方失败。

而且我真的很希望启动/停止方法能够工作，因为它要快得多，而且我有一个大数据集，一个慢的方法真的很耗时。

顺便说一句，如果您想知道，我不能像这样使用“chunksize”：

每次我尝试 chunksize 我都会得到一个这样的MemoryError。面对很多问题，Pandas 对于我这样的新手来说真的很难。任何帮助是极大的赞赏。

python pandas hdf5 hdfstore

2015-06-12T02:09:37.243

0 投票

0 回答

177 浏览

python - Python pandas HDFstore 附加缺少列的数据框

假设我已经有一个 hdfstore，有 3 列 [a,b,c]，其 dtype 为 [uint32,int64,datetime64[ns]]

问题是如何附加缺少列的数据框。说缺少列'c'，我尝试仅附加[a，b]，我不能直接这样做，因为数据框cannot match existing table structure

我尝试重新索引包括列'c'的数据框，但它仍然不起作用，因为默认情况下新列'c'都是NaN，并且它的dtype是float64，仍然不匹配。

因此，我尝试使用.astype(datetime64[ns])更改其 dtype，但此方法也不起作用，dtype 保持不变。

现在我被困住了，如何将此部分列数据框附加到 HDFstore 中？

python pandas hdfstore

2015-06-18T09:17:43.387

0 投票

1 回答

1274 浏览

python-3.x - Anaconda3 libhdf5.so.9：无法打开共享对象文件[在 py2.7 上工作正常，但在 py3.4 上不行]

我只是尝试pd.HDFStore在带有 Python 3 内核的 IPython Notebook 中使用（Ubuntu 14.04 上的 Anaconda 2&3）

但它会引发以下错误

我最初以为是因为pytables不知何故丢失了，但是当我检查$source activate py34and时$conda list，pytables 3.2.0已经安装在 anaconda python3 环境下。

此外，例如，如果我切换到 Python 2$source activate py27并 start ipython notebook，它可以正常工作并且不会引发导入错误。

我想我必须错过pytables在 anaconda python 3 env 下配置的一些东西，但我无法弄清楚。非常感谢任何帮助。

更新：

我刚刚尝试从官方网站进行全新安装，Anaconda3-2.3.0-Linux-x86_64但最终出现相同的错误。当我在命令行中尝试$locate libhdf5.so.9时，什么都没有出现。

python-3.x pandas anaconda pytables hdfstore

2015-07-25T18:11:34.613

0 投票

0 回答

313 浏览

pandas - 使用 pandas 将带有字符串值的 DataFrame 块附加到大型 HDF5 文件的异常

pandas.DataFrame()在文件大小大于大约 47 GiB 后，将字符串值（数值可以）附加到 HDF5 存储时会发生异常。字符串的最小大小、记录数、列数都不重要。文件大小很重要。

异常跟踪的底部：

重现的代码：

环境：Windows7 x64机器，python 3.4.3，pandas 0.16.2，pytables 3.2.0，HDF5 1.8.14。

问题是如果它位于上面的 python 代码中，如何解决问题，或者如果与 HDF5 相关，如何避免它。谢谢。

pandas hdf5 hdfstore

2015-08-18T16:14:50.310

0 投票

1 回答

932 浏览

python - 使用 Pandas 从 HDFStore 读取特殊字符时出现 UnicodeDecode 错误

我需要在 HDFStore 中存储很多消息，其中一些包含表情符号或特殊字符，例如 éěščřžýáí。一切似乎都正常，直到我尝试加载它，然后它崩溃并出现以下错误。这是以错误结尾的示例代码

这是错误

我有 Pandas 0.16.2 和 PyTables 3.2.2

python pandas unicode pytables hdfstore

2015-10-04T12:25:44.423

0 投票

1 回答

707 浏览

python - Pandas HDFStore：使用分层周期索引保存和检索系列

我首先创建了一个具有二维层次索引的系列。他们的索引类型是 (pandas.period, numpy.int32)

然后，我使用 HDFStore 保存系列（ts1）并检索它（作为 ts2）：

现在，检索到的系列 (ts2) 的索引的 dtype 已更改为整数：

有没有办法正确保存系列？我知道我可以在检索数据后更改类型，但我更喜欢干净利落地完成这项工作。

我正在使用 pandas 0.16.1 和 pyhon 2.7.7（Anaconda 2.0.1（64 位））

python numpy pandas indexing hdfstore

2015-10-10T04:14:11.490

0 投票

2 回答

1326 浏览

python - 如何在 Django 模型字段中存储 HDF5（HDF 存储）

我目前正在从事一个项目，我在该项目中生成 pandas DataFrames 作为分析结果。我在 Django 中进行开发，并希望在“结果”模型中使用“数据”字段来存储熊猫 DataFrame。

看来 HDF5(HDF Store) 是存储我的 pandas DataFrames 的最有效方式。但是，我不知道如何在我的模型中创建自定义字段来保存它。我将在下面展示简化的 views.py 和 models.py 来说明。

模型.py

视图.py

我很感激任何帮助，我也愿意接受另一种存储方法，例如 Pickle，只要我可以将它与 Django 一起使用，它具有类似的性能。

python django pandas hdfstore django-custom-field

2015-11-10T18:26:31.983

0 投票

1 回答

801 浏览

python - 尽管 'index=None' 使用 pandas 'to_hdf' 重复索引

我想将数据存储在 HDFS 文件中，但将新数据附加到该文件会使索引重复。请问我怎样才能避免它？

添加值index=None

索引现在重复...

我正在使用熊猫0.17.0，Python3.4.3

谢谢。

python python-3.x pandas hdfstore

2015-11-27T21:05:53.103

0 投票

0 回答

208 浏览

python - 当列名为整数时，根据值从 HDFStore 表中选择数据

我正在使用 a pandas.HDFStore，但我找不到我想做的事情的解释，即使用select带有值过滤器的方法。

这是我想要实现的目标：我的table商店中有一个，其中的列是看起来像整数的字符串，我希望能够过滤文档中所写的值：

我的列名称如下：

所以，我只是尝试了这个：

但我得到了以下异常：

我也尝试了以下表达式，但结果是一样的：

在这种情况下，有人给我小费吗？

请注意，我更愿意保留这些列名称，因为它们在我的代码的其他部分用作键。

附加说明：我已经可以做这样很酷的事情了：

python select pandas hdfstore

2016-01-12T12:51:42.873

问题标签 [hdfstore]

更新：

Reference