问题标签 [hdfstore]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1123 浏览

pandas - Pandas reading csv into hdfstore thrashes, creates huge file

As a test, I'm trying to read a small 25 mg csv file using pandas.HDFStore:

It causes my computer to thrash and when it finally completes, file.h5 is 6.7 gigs. I don't know what is causing the file size to balloon: when I look at the store afterwards, the only thing in there is the small dataframe. If I read the csv in without chunking and then add it to the store, I have no problems.

Update 1: I'm running Anaconda, using python 2.7.6, HDF5 version 1.8.9, numpy 1.8.0, pytables 3.1.0, pandas 13.1, ubuntu 12.04. The data is proprietary, so I can't post the chunk information online. I do have some mixed types. It still crashes if I try to read everything in as object.

Update 2: Dropped all the columns with mixed type and I'm still getting the same issue. I have some very large text columns if that makes any difference.

Update 3: The problem seems to be loading the dataframe into the hdfstore. I drastically reduced the size of my file, but kept one of my very wide columns (1259 characters). Whereas the size of the csv file is 878.6kb, the size of the hdfstore is 53 megs. Is pytables unable to handle very wide columns? Is there a threshold above which I should truncate?

0 投票
1 回答
3904 浏览

python - 使用 pandas.HDFStore 读取 HDF5 文件中的整个组

我有一个这样的 HDF 文件:

我想从其中一个实验(exp0Z)中检索所有用户(userXY)并将它们附加到一个大数据帧中。我尝试store.get('exp03')获得以下错误:

我可以通过调用来检索单个用户store.get('exp03/user01'),所以我想可以迭代store.keys()并手动附加检索到的数据帧,但我想知道是否可以在一次调用store.get()或其他类似方法中这样做。

编辑:请注意,数据集是一个包含我的 pandas.HDFstore 的类

0 投票
1 回答
794 浏览

python - 如何使用 python pandas 打开 nxs 文件?

我有一个 Nexus 文件(foo.nxs),其中包含来自测量的直接数据,我希望用熊猫打开它。但是,当我尝试典型的

它只是返回一个空的 Store:

或类型错误:

文档页面中的所有示例都首先创建一个 hdf 文件,在其中存储数据然后检索它,但这是从同一个 pandas 完成的。我想知道是否可以读取以前没有用 pandas 生成的 hdf 文件。

根据@Jeff 的要求,这是 ptdump 输出的一部分:

0 投票
1 回答
676 浏览

python - 如何将数据附加到存储在 HDFStore 文件中的面板

我有一个存储在文件中的面板,我想将更多数据附加到该面板并附加到内存中工作正常,但是当尝试将数据附加到文件时出现此错误:

0 投票
1 回答
2218 浏览

python - 动态附加到 Pandas 数据框

我一直在使用 Pandas 将 HTTP 日志导入 Pandas 进行分析,因为它是大量数据的良好来源,并且可以让我学习 Pandas。

我一次将日志流式传输到一行,因此无法从 CSV 导入,需要将这些“泵入”到 Pandas DataFrame 中,然后我将其保存到 HDFStore 文件中。

我现在写的代码确实是从 GZIP 中读取的,这样我就可以开始这个过程了,但是一旦我完成了 Panda 的部分工作,我会将它修改为使用 pubsub 样式的协程进行事件驱动。

到目前为止,这是我的代码:

以下是执行上述代码的基本测试代码:

现在到了我似乎卡住的地方:

我能够创建 pandas.Series 数据,但是当我尝试将其推送到数据框中时,它会将其作为两列 11 行。

这与我希望得到的相差甚远,我希望 [1 行 x 1 列]:

这样,如果我添加另一个 pandas.Series 日志行,我会得到另一行,依此类推。我还打算索引以下内容:timestamp、client_ip、backend_ip

我真的很感谢一些帮助,因为我似乎没有让我的行/列正确。

经过一番玩耍后,我得到了以下信息:所以在玩了一会儿之后,我想出了以下内容,但仍然无法连接/追加。

这就是我想要的,但在此之后我似乎仍然有附加/连接的问题。

我将调查解决方案

0 投票
4 回答
6467 浏览

python - 在 Python 中读取 HDF 文件的属性

我在 pandas 中读取 hdf 文件时遇到问题。截至目前,我不知道文件的密钥。

在这种情况下如何读取文件 [data.hdf]?而且,我的文件是 .hdf 而不是 .h5 ,它对数据获取有影响吗?

我看到您需要“商店中的组标识符”

我能够从 pytables 获取元数据

如何通过 pandas 使其可读?

0 投票
1 回答
69 浏览

python - 使用 pandas/pytables 处理与多个索引值关联的关联数据项列表的正确方法

我想知道处理存储/读取项目列表的正确方法是什么,例如以下处理摇滚明星的示例,其中已知列表包含 hdf5 的最大数量的值:

所有这些都是列名。

ValueError: cannot reindex from a duplicate axis我考虑过的一种方法是使用重复的列名,但结果却给出了错误 ( )。否则,我能做的就是 haveBands 1Bands 2……但这会使检索和查询变得很麻烦。有没有更好的办法?任何帮助将不胜感激!

0 投票
1 回答
8346 浏览

python - 从 hdf 文件中获取列名(标题)

我想知道如何获取 hdf 文件的列名(似乎存储在 hdf 标题中);例如,一个文件可能有名为 [a,b,c,d] 的列,而另一个文件有 [a,b,c] 列,而另一个文件有 [b,e,r,z] 列;我想知道哪些有哪些。任何帮助将不胜感激!

0 投票
1 回答
198 浏览

python - 多个文件或单个文件到 HDFStore

我正在将 100 个 csv 文件转换为数据帧并将它们存储在 HDFStore 中。

有什么好处和坏处

a - 将 csv 文件存储为 100 个不同的 HDFStore 文件?

b - 将所有 csv 文件作为单独的项目存储在单个 HDFStore 中?

除了性能问题之外,我还在问这个问题,因为我遇到了稳定性问题,而且我的 HDFStore 文件经常被损坏。因此,对我来说,单个 HDFStore 存在风险。但是,我想知道拥有一家商店是否有好处。

0 投票
1 回答
760 浏览

python - 使用熊猫附加时出现 hdfstore 错误

我收到以下错误:

关于为什么会发生这种情况的任何想法?这是一个相当大的项目,所以我不确定我可以提供什么代码,但这发生在第一次追加时。任何帮助将不胜感激。

编辑::::::

显示版本结果:

信息结果:

头: