问题标签 [pandas-resample]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 熊猫根据条件重新采样和聚合
我有一个 DataFrame,其中有一列状态如下:
我想按天对数据进行重新采样,并在会话中按条件计数状态类型(而不是尝试)。
我可以像这样轻松地尝试重新采样:
并且有:
但是无论会话中尝试了多少次,我都想按会话聚合它:
- 如果会话中的“成功”状态尝试,则成功+1,失败+0,中断+0;
- 如果会话中的“中断”状态并且会话中没有“成功”状态,则成功+0,失败+0,中断+1;
- 如果会话中没有“中断”和“成功”状态,则成功+0,失败+1,中断+0。
所以我应该得到这样的东西:
我坚持使用功能,我想出的所有结果都以“ValueError:系列的真值是模棱两可的”结尾。对于任何想法,我都会非常满意。
dataframe - 使用 Pandas 的重采样功能后如何选择特定时间间隔的数据?
我使用 Pandas 的 resample 函数每 6 个月计算一次产品列表的销售额。我将重采样函数用于“6M”并使用 apply({“column-name”:“sum”})。
现在我想创建一个表,其中包含前六个月的销售额总和。
鉴于所有产品都有超过 3 年的记录,并且没有一个具有相同的开始日期,我如何提取前 6 个月的总和?
在此先感谢您的任何建议。
以下是数据示例:
python - Python Pandas:如何将“resample”与“idxmin”一起使用?
我有一个带有熊猫日期时间索引的数据框。
我想获取每日最小值的索引。这是我的方法不起作用:
如何在不创建循环的情况下解决这个问题?
python - pandas:重新采样多索引数据框
我有一个带有多索引的数据框:“主题”和“日期时间”。每行对应一个主题和一个日期时间,数据框的列对应于各种测量值。
每个主题的天数范围不同,并且给定主题的某些天数可能会丢失(参见示例)。此外,对于给定的一天,受试者可以具有一个或多个值。
我想重新采样数据框,以便:
- 每个主题每天只有一行(我不关心一天中的时间),
- 每列值是当天的最后一个非 NaN(如果当天没有值,则为 NaN),
- 不会创建或保留任何列上没有值的天数。
例如,以下数据框示例:
应该返回:
我花了太多时间尝试使用带有“pad”选项的 resample 来获得这个,但我总是得到错误或者不是我想要的结果。有人可以帮忙吗?
注意:这是创建示例数据框的代码:
python - Groupby和ffill Python中的指定列
我想按id_
, Code
, Timestamp
(因为时间顺序很重要)对值进行排序,然后d1
使用id_
and对值进行分组,然后对每个组、列和onlyCode
使用前向填充,同时保持其他列不变,并返回完整的表。ffill
NaN
V1
V2
d1
:
试过:
仅返回两列:
我应该如何正确地做到这一点?
python - 如何根据夏令时更改 UTC OHLC 时间序列上的熊猫重采样
我有一个 1 分钟的 OHLC CSV 文件,其日期使用UTC
我正在使用以下方法重新采样:
这将从周日 21:00 开始重新采样,因此它是 21:00、01:00、05:00,...,直到周五 17:00,其中 21:00 UTC 是市场开放时间。
但是,当有夏令时开关时,一周的第一分钟从周日 22:00 开始,到 18:00 结束。
当周日的第一分钟从 22:00 开始时,您如何将重采样在 22:00 和周日的第一分钟从 21:00 开始时的 21:00 交替进行? 简而言之,重采样应该在 CSV 中的第一分钟(这是星期天的一周开始)自动开始,并以相同的模式继续,直到遇到另一个开始,依此类推。
pandas - 每年对具有远期值的每日数据重新采样
我有 2 个数据框(一个 df 和一个系列)。它们看起来像这样:
和 :
第一个是年度数据,而第二个是每日数据。我想合并基于类型/日期列的两个基础,但对于年度数据,创建一个带有前向数据的每日数据。我的意思是:2009-12-31 AAB000001471 Q2 2010-01-01 AAB000001471 Q2 .... 直到年底,我有了一个新的价值
我试过了 :
但它不工作。我还有年度数据
谢谢
pandas - pandas 将不均匀的每小时数据重新采样到 1D 或 24h 箱中
我有每周一小时的外汇数据,我需要在周一至周四下午 12:00 和周五晚上 21:00 重新采样到“1D”或“24hr”箱中,每周总共 5 天:
所以一周中每一天的小时数是不均匀的,即“星期一”= 00:00:00 星期一到 12:00:00 星期一,“星期二”(还有星期三,星期四)= 即 13:00: 00 周一至周二 12:00:00,周五 = 13:00:00 至 21:00:00
在尝试找到解决方案时,我发现 base 现在已弃用,并且 offset/origin 方法未按预期工作,可能是由于每天的行数不均匀:
我花了几个小时试图找到解决方案
如何将每个 12:00:00 时间戳之间的所有数据行简单地放入 ohlc() 列?
所需的输出如下所示:
python - Pandas:重新采样分类索引数据
假设一些测量数据(实际上大约每分钟给出)命名为logData
:
数据被分组为avgData
如下所示:
这个下采样avgData
现在应该(在执行一些其他计算之后)再次上采样,例如到频率freq='10min'
为进一步计算。由于avgData.resample('10min')
引发以下错误,问题是如何重新采样分类数据?
提前谢谢了!