问题标签 [pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 Pandas OLS 进行预测
我一直在使用scikits.statsmodels OLS predict函数来预测拟合数据,但现在想改用 Pandas。
该文档指的是 OLS以及一个名为y_predict的函数,但我找不到任何关于如何正确使用它的文档。
例如:
但是,虽然我可以制作合身:
预测没有什么不同:
在 scikits.statsmodels 中,可以执行以下操作:
如何在 Pandas 中执行此操作以将内生数据预测到外生数据的极限?
更新:感谢 Chang,新版本的 Pandas (0.7.3) 现在具有此功能作为标准。
python - 使用 python 和 pandas 将 OHLC 股票数据转换为不同的时间范围
关于使用Pandas进行 OHLC 数据时间帧转换,有人能指出我正确的方向吗?我想要做的是构建一个数据框,其中包含更高时间范围的数据,给定具有较短时间范围的数据。
例如,假设我有以下一分钟 (M1) 数据:
它具有每分钟的开盘价、最高价、最低价、收盘价 (OHLC) 和成交量值我想构建一组 5 分钟读数 (M5),如下所示:
所以工作流程是:
- Open 是时间窗口中第一行的 Open
- 高是时间窗口中的最高高
- Low 是最低的 Low
- 关闭是最后一个关闭
- 体积只是体积的总和
不过有几个问题:
- 数据有差距(注意没有 10:30:00 行)
- 5 分钟的间隔必须从圆形时间开始,例如 M5 开始于 10:25:00 而不是 10:22:00
- 首先,不完整的集合可以像这个例子一样被省略,或者包括在内(所以我们可以有 10:20:00 5 分钟的条目)
Pandas 关于上下采样的文档给出了一个示例,但他们使用平均值作为上采样行的值,这在此处不起作用。我曾尝试使用groupby
但agg
无济于事。对于一个获得最高价和最低价的人来说可能并不难,但我不知道如何获得第一个开盘价和最后一个收盘价。
我尝试的是类似的东西:
但它会导致以下错误,我不明白:
因此,我们将不胜感激任何帮助。如果我选择的路径不起作用,请建议其他相对有效的方法(我有数百万行)。使用 Pandas 进行财务处理的一些资源也很好。
python - 如何更改 numpy recarray 某些列的 dtype?
假设我有一个如下的recarray:
假设我想将某些列转换为浮点数。我该怎么做呢?我应该更改为 ndarray 并将它们更改回 rearray 吗?
python - 熊猫数据透视表日期
我有一个DataFrame
带有日期列的熊猫。它不是一个索引。
我想使用每个位置每月的计数聚合在数据框上制作一个 pivot_table。
数据如下所示:
我用了:
pivot_table(cdiff, values='COUNT', rows=['DATE','LOCATION'], aggfunc=np.sum)
旋转这些值。我需要一种将 cdiff.DATE 转换为月份而不是日期的方法。我希望最终得到类似的结果:数据如下所示:
strftime
我在 cdiff.DATE 上尝试了各种方法,但均未成功。它想将 应用于字符串,而不是系列对象。
python - python的Pandas数据支柱用于什么?
pandas 中至少有四个数据支柱。
->切片
->日期帧
->日期矩阵
->面板
这些的用例是什么。这些文件似乎突出了 slice 和 DataFrame。请给出用例的例子。我知道文档的位置。
python - 什么是 pandas 进行 summaryBy(...,full.dimension=T) 的有效方法
使用 R 中的 doBy 包,我们对组进行汇总,并得到与原始数据相同形状和顺序的结果:
DataFrame
当按多个索引之一分组时,有没有办法在熊猫中做同样的事情?
python - Python Pandas 中的 GroupBy 函数,如 SUM(col_1*col_2)、加权平均等
是否可以直接计算两列的乘积(或例如总和)而不使用
使用起来要快得多(不到我机器上时间的一半)
但我真的不喜欢这样做。例如,计算每组的加权平均值很有用。这里的 lambda 方法是
并且再次比将助手除以 b.sum() 慢得多。
python - 如何在 pandas 中创建日期时间索引
如何创建日期时间索引"foo"
以用于原始数据系列。(例如,每 15 秒“foo”和每 30 秒“foo2”。)如果可以将原始系列插入“基本”数据帧,我想使用“foo”重铸数据帧。
如果想要将 df "foo" 和 df "foo2" 结合起来的系列,那么内存命中会是多少?用原始数据系列填充 foo 索引会更好吗?
编辑:之后import pandas
,datetime.timedelta
停止工作
python - 如何使用 Pandas MultiIndex 中只有一个标签的值列表进行索引
我正在尝试使用 pandas 多索引在顶级索引(日期)处选择部分切片,并将列表应用于二级索引(股票代码)。即下面我想要范围内的 AAPL 和 MSFT 的数据d1:d2
。
部分切片工作正常,但不清楚如何从第二个索引中选择 AAPL 和 MSFT,同时避免中间的 GOOG。
如果我交换级别,它可以使用单个符号,而不是列表。
我想避免建立一个长的元组列表,即:
当传递给 ix 时,它确实有效。下面是我想要的输出。
谢谢,约翰