问题标签 [pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6145 浏览

python - 使用 Pandas OLS 进行预测

我一直在使用scikits.statsmodels OLS predict函数来预测拟合数据,但现在想改用 Pandas。

该文档指的是 OLS以及一个名为y_predict的函数,但我找不到任何关于如何正确使用它的文档。

例如:

但是,虽然我可以制作合身:

预测没有什么不同:

在 scikits.statsmodels 中,可以执行以下操作:

如何在 Pandas 中执行此操作以将内生数据预测到外生数据的极限?

更新:感谢 Chang,新版本的 Pandas (0.7.3) 现在具有此功能作为标准。

0 投票
4 回答
22124 浏览

python - 使用 python 和 pandas 将 OHLC 股票数据转换为不同的时间范围

关于使用Pandas进行 OHLC 数据时间帧转换,有人能指出我正确的方向吗?我想要做的是构建一个数据框,其中包含更高时间范围的数据,给定具有较短时间范围的数据。

例如,假设我有以下一分钟 (M1) 数据:

它具有每分钟的开盘价、最高价、最低价、收盘价 (OHLC) 和成交量值我想构建一组 5 分钟读数 (M5),如下所示:

所以工作流程是:

  • Open 是时间窗口中第一行的 Open
  • 高是时间窗口中的最高高
  • Low 是最低的 Low
  • 关闭是最后一个关闭
  • 体积只是体积的总和

不过有几个问题:

  • 数据有差距(注意没有 10:30:00 行)
  • 5 分钟的间隔必须从圆形时间开始,例如 M5 开始于 10:25:00 而不是 10:22:00
  • 首先,不完整的集合可以像这个例子一样被省略,或者包括在内(所以我们可以有 10:20:00 5 分钟的条目)

Pandas 关于上下采样的文档给出了一个示例,但他们使用平均值作为上采样行的值,这在此处不起作用。我曾尝试使用groupbyagg无济于事。对于一个获得最高价和最低价的人来说可能并不难,但我不知道如何获得第一个开盘价和最后一个收盘价。

我尝试的是类似的东西:

但它会导致以下错误,我不明白:

因此,我们将不胜感激任何帮助。如果我选择的路径不起作用,请建议其他相对有效的方法(我有数百万行)。使用 Pandas 进行财务处理的一些资源也很好。

0 投票
3 回答
19100 浏览

python - 如何更改 numpy recarray 某些列的 dtype?

假设我有一个如下的recarray:

假设我想将某些列转换为浮点数。我该怎么做呢?我应该更改为 ndarray 并将它们更改回 rearray 吗?

0 投票
1 回答
25678 浏览

python - Python中的控制图

我目前经常使用 R 进行统计过程控制。有了它,我可以生成控制图,例如EWMA、Shewhart、CUSUMGAM / Loess平滑。

有谁知道使用 Python 制作这些类型图表的最佳方法?我最初看了,scikits.timeseries但它已经被罐头贡献给pandas

我看了一下 pandas,虽然它确实具有 EWMA 功能,但我需要更多。

0 投票
1 回答
8641 浏览

python - 熊猫数据透视表日期

我有一个DataFrame带有日期列的熊猫。它不是一个索引。

我想使用每个位置每月的计数聚合在数据框上制作一个 pivot_table。

数据如下所示:

我用了:

pivot_table(cdiff, values='COUNT', rows=['DATE','LOCATION'], aggfunc=np.sum)

旋转这些值。我需要一种将 cdiff.DATE 转换为月份而不是日期的方法。我希望最终得到类似的结果:数据如下所示:

strftime我在 cdiff.DATE 上尝试了各种方法,但均未成功。它想将 应用于字符串,而不是系列对象。

0 投票
1 回答
660 浏览

python - python的Pandas数据支柱用于什么?

pandas 中至少有四个数据支柱。

->切片
->日期帧
->日期矩阵
->面板

这些的用例是什么。这些文件似乎突出了 slice 和 DataFrame。请给出用例的例子。我知道文档的位置。

0 投票
2 回答
607 浏览

python - 什么是 pandas 进行 summaryBy(...,full.dimension=T) 的有效方法

使用 R 中的 doBy 包,我们对组进行汇总,并得到与原始数据相同形状和顺序的结果:

DataFrame当按多个索引之一分组时,有没有办法在熊猫中做同样的事情?

0 投票
3 回答
5378 浏览

python - Python Pandas 中的 GroupBy 函数,如 SUM(col_1*col_2)、加权平均等

是否可以直接计算两列的乘积(或例如总和)而不使用

使用起来要快得多(不到我机器上时间的一半)

但我真的不喜欢这样做。例如,计算每组的加权平均值很有用。这里的 lambda 方法是

并且再次比将助手除以 b.sum() 慢得多。

0 投票
3 回答
6147 浏览

python - 如何在 pandas 中创建日期时间索引

如何创建日期时间索引"foo"以用于原始数据系列。(例如,每 15 秒“foo”和每 30 秒“foo2”。)如果可以将原始系列插入“基本”数据帧,我想使用“foo”重铸数据帧。

如果想要将 df "foo" 和 df "foo2" 结合起来的系列,那么内存命中会是多少?用原始数据系列填充 foo 索引会更好吗?

编辑:之后import pandasdatetime.timedelta停止工作

0 投票
1 回答
1889 浏览

python - 如何使用 Pandas MultiIndex 中只有一个标签的值列表进行索引

我正在尝试使用 pandas 多索引在顶级索引(日期)处选择部分切片,并将列表应用于二级索引(股票代码)。即下面我想要范围内的 AAPL 和 MSFT 的数据d1:d2

部分切片工作正常,但不清楚如何从第二个索引中选择 AAPL 和 MSFT,同时避免中间的 GOOG。

如果我交换级别,它可以使用单个符号,而不是列表。

我想避免建立一个长的元组列表,即:

当传递给 ix 时,它确实有效。下面是我想要的输出。

谢谢,约翰