“hdfstore”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1052 浏览

python - 追加失败时如何有效地重建pandas hdfstore表

我正在使用 pandas 中的 hdfstore 来处理正在进行的迭代过程中的数据帧。在每次迭代中，我都会追加到 hdfstore 中的一个表。这是一个玩具示例：

hdfstore_append 函数防止 hdfstore.append 抛出的各种异常，并在必要时重建表。这种方法的问题是当存储中的表变得非常大时它会变得非常慢。

有没有更有效的方法来做到这一点？

2016-03-05T18:50:28.110

0 投票

0 回答

69 浏览

python - 在 HDFStore 的排序列中查找规则间隔的值转换

问题

我想制作一个工具来查找 Pandas HDFStore 的排序列中的值转换边界。对于广泛的数据分布，我想尽可能快地做到这一点。

例子

给定一个大的排序列

我将选择几个固定间隔的位置

从这些我想向右移动到值转换的下一个点，即下一个值与当前值不同的位置

无论我得到的数据分布如何，我都想快速而稳健地做到这一点。

一些担忧

从磁盘加载我的数据可能很大且成本很高。我不想将整个事情加载到内存中
相反，我怀疑一次加载一个元素会非常慢，所以我可能想要拉入 100 行或其他内容的块。这里有什么好的经验法则？
我可能有很多专栏。鉴于我只关心一列，我如何最好地避免不必要的成本（我知道 HDFStore 是面向行的，不过，这里可能有一些聪明的东西）
我可能会遇到很长的排序序列（数十万个元素）

python pandas hdf5 hdfstore

2016-04-15T17:00:46.170

0 投票

1 回答

1342 浏览

python - Pandas HDFStore 奇怪的行为

我对此感到非常困惑，我有两个脚本从同一个笔记本服务器运行。我在同一个文件夹中有一个 HDFStore，但是对于一个脚本，它看起来是空的，而对于另一个则不是。这是在两个笔记本中运行的相同代码：

返回 NB 1: 'E:\DoingDataScience\Identify\Scripts'

返回 NB 2: 'E:\DoingDataScience\Identify\Scripts'

返回注意 1：

返回注意 2：

所有的情况看起来都一样。它是否跟踪 Pandas DF 的来源？我认为这可能是由于 NB 1 已经打开了该文件，因为 NB 1 创建了它。但是杀死 NB 1 并重新启动 NB 2 也没有做任何事情。

编辑：添加 os.stats：

NB 1 和 NB 2 两者：

更新：现在重新启动后我收到一个新错误：

HDF5ExtError：HDF5 错误回溯

文件“C:\aroot\work\hdf5-1.8.15-patch1\src\H5F.c”，第 604 行，在 H5Fopen 中无法打开文件文件“C:\aroot\work\hdf5-1.8.15-patch1\ src\H5Fint.c"，第 1085 行，在 H5F_open 中无法读取超级块文件 "C:\aroot\work\hdf5-1.8.15-patch1\src\H5Fsuper.c"，第 294 行，在 H5F_super_read 中无法加载超级块文件“C:\aroot\work\hdf5-1.8.15-patch1\src\H5AC.c”，第 1320 行，在 H5AC_protect H5C_protect() 中失败。文件“C:\aroot\work\hdf5-1.8.15-patch1\src\H5C.c”，第 3574 行，在 H5C_protect 中无法加载条目文件“C:\aroot\work\hdf5-1.8.15-patch1 \src\H5C.c"，第 7954 行，在 H5C_load_entry 中无法加载条目文件 "C:\aroot\work\hdf5-1.8.15-patch1\src\H5Fsuper_cache.c"，第 476 行，在 H5F_sblock_load 截断文件中：eof = 800, sblock->base_addr = 0,

HDF5 错误回溯结束

无法打开/创建文件“data_test.h5”

python pandas hdfstore

2016-06-05T18:03:39.613

0 投票

1 回答

521 浏览