问题标签 [hdfstore]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在需要 groupby 操作时处理分块数据
我有一个df
包含三列的数据集:'String_key_val'
, 'Float_other_val1'
, 'Int_other_val2'
. 我想对 key_val 进行分组,然后针对这些组提取val1
(resp. ) 的总和。val2
这是我的代码:
我的问题是:我的入口数据集是 10GB,我有 4Go Ram,所以我需要对我的微积分进行分块,但我看不出如何。我想过使用HDFStore
,但由于我只需要构建一个数字数据集,我认为存储 complete 没有意义DataFrame
,而且我认为HDFStore
不能存储简单的数组。我能做些什么?
python - HDFStore.select 比 DataFrame 切片慢一个数量级?
给定一个带有整数索引和浮点列的简单 DataFrame,这段代码:
至少比此代码慢 10 倍:
表格或固定格式并没有太大的区别,select() 调用,即使相当于切片,也慢得多。
感谢您的任何见解!
python - pandas - 如何仅将 DataFrame 的选定列保存到 HDF5
我正在读取一个 csv 示例文件并将其存储在 .h5 数据库中。.csv 的结构如下:
我已经将它放在带有 pandas to_hdf 的 .h5 商店中,选择仅将几列传递给 .h5:
我使用 HDFStore 和 read_hdf 在 .h5 文件中存储的列中获得了不同的结果,特别是:
这是我所期望的(仅存储在数据库中的 'User_ID' 和 'Year' 列),尽管 ncols->6 意味着实际上所有列都已存储在 .h5 文件中。
如果我尝试使用 pd.read_hdf 读取文件:
并要求钥匙:
这不是我所期望的,因为原始 .csv 文件的所有列仍在 .h5 数据库中。如何在 .h5 中仅存储选择的列以减小数据库的大小?
谢谢你的帮助。
python - 熊猫 HDF 选择不识别列名
我正在尝试在只有 4gb RAM(不要问)的机器上处理一个大型(2gb)csv 文件,以生成一个不同的、格式化的 csv,其中包含需要一些处理的数据子集。我正在读取文件并创建一个 HDFstore,稍后我会查询输出所需的数据。一切正常,除了我无法使用 Term 从存储中检索数据 - 错误消息返回 PLOT 不是列名。个别变量看起来很好,商店是我所期望的,我只是看不到错误在哪里。(nb pandas v14 和 numpy1.9.0)。对此非常新,因此为笨拙的代码道歉。
python-2.7 - How to deal with pandas column that has a list of dicts in every cell
I have a DataFrame that includes a column where every cell is made up of a list of dicts, and each list of dicts is of varying length (including 0).
An example:
Note that 'count' is the number of dicts in 'RANKS.' The goal I had in mind was to creating a series of additional dataframes/tables (one for each 'rank') and link these to the main table in a HDFStore. Something like:
This way I could easy query on ID and rank if needed, but the main table wouldn't get cluttered with the unwinding of this hierarchical data.
The problem, however, is I cannot figure out how to create the DataFrames from this column. I've tried a number of things, the first (to be nested in a for-loop if it worked, but of course it did not):
And, the second, since price is the most important piece to me:
Then convert to float. This works but is a pretty big compromise. Is there an efficient way (that won't get hung up on NaNs) to accomplish my goal of separate DataFrames for each rank?
python - 熊猫数据框和速度
我有一个 pandas 数据框对象,我预先分配了 400 000 个条目。2 列一个 datetime.datetime 类型的时间戳和一个浮点数。当我尝试在表中插入(覆盖)一行时,它似乎相当慢,具体取决于表的大小,我得到的时间类似于 0.044 秒。我创建了一个整数索引,并且正在使用该索引来访问该行。这是我使用它的方式:
根据我的调查,最后一条语句在我的机器(i7-4650U)上大约需要 0.044 秒。这似乎很慢。有什么我做的根本错误的事情吗?我可以使用 HDF Store 之类的东西来提高写入速度,同时保持高读取速度吗?
谢谢。
python - 获取 HDF5 内容列表(Pandas HDFStore)
从 HDF5 商店中的表中选择内容没有问题:
如何使用 pandas 获取所有要选择的表的列表?
python - Pandas HDFStore 从嵌套列中选择
我有以下 DataFrame,它作为名为 data 的 frame_table 存储在 HDFStore 对象中:
我想做store.select('data','shipmentid==2')
,但我收到未定义“shipmentid”的错误:
编写此选择语句的正确方法是什么?
编辑:添加示例代码
pandas - Pandas HDFStore 形状上的奇怪行为
我正面临这种奇怪的行为,我得到了一个包含 DataFrames 的 HDFStore。对于 store 中的 2 个键,形状信息因查询方式而异。例子:
任何想法 ?
正如 Jeff 建议的那样,这是 ptdump 的结果(仅限于enrich_data_kb 键):
python - HDF 存储:将浮动元组列表保存到文件
我有一个大的 csv 文件,其中一列包含作为浮点元组的 gps 坐标列表。当然,如果我将文件作为 pandas 数据框读取,它们的类型只是字符串,这不是那么有用。
我想要做的是将字符串转换为浮点元组列表并将它们保存为一种我可以简单地加载到数据框并运行查询的格式。对此的重要限制是,我无法为整个大数据集计算此转换,因此无法转储二进制对象。
从我读到的,似乎 HDF 存储应该能够以所需的格式保存数据并允许我附加行,所以我可以将字符串逐位转换为 GPS 条目,从而不会出现我的记忆问题限制。
但是,当我尝试创建 HDF 文件时,我得到:
产生此错误的代码是:
df 包含原始数据的切片,在 POLYLINE 列上映射转换函数后,这至少应该意味着该列中的所有数据具有相同的类型。
我该如何解决生成的错误或有哪些其他方法可以很好地工作?
编辑:转换前的 df.head() 导致:
并在转换 POLYLINE 列之后(省略其他列以节省空间):
我现在对其进行了更改,因此结果输出也是列表列表而不是元组列表。检查其中的单个元素表明转换之前的条目是一个字符串,内部列表中的单个项目是一个浮点数,应该是这样,尽管它的打印方式并没有说明这一点。