问题标签 [pandas]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

235058 问题

0 投票

1 回答

6145 浏览

python - 使用 Pandas OLS 进行预测

我一直在使用scikits.statsmodels OLS predict函数来预测拟合数据，但现在想改用 Pandas。

该文档指的是 OLS以及一个名为y_predict的函数，但我找不到任何关于如何正确使用它的文档。

例如：

但是，虽然我可以制作合身：

预测没有什么不同：

在 scikits.statsmodels 中，可以执行以下操作：

如何在 Pandas 中执行此操作以将内生数据预测到外生数据的极限？

更新：感谢 Chang，新版本的 Pandas (0.7.3) 现在具有此功能作为标准。

2012-03-30T13:22:40.237

0 投票

4 回答

22124 浏览

python - 使用 python 和 pandas 将 OHLC 股票数据转换为不同的时间范围

关于使用Pandas进行 OHLC 数据时间帧转换，有人能指出我正确的方向吗？我想要做的是构建一个数据框，其中包含更高时间范围的数据，给定具有较短时间范围的数据。

例如，假设我有以下一分钟 (M1) 数据：

它具有每分钟的开盘价、最高价、最低价、收盘价 (OHLC) 和成交量值我想构建一组 5 分钟读数 (M5)，如下所示：

所以工作流程是：

Open 是时间窗口中第一行的 Open
高是时间窗口中的最高高
Low 是最低的 Low
关闭是最后一个关闭
体积只是体积的总和

不过有几个问题：

数据有差距（注意没有 10:30:00 行）
5 分钟的间隔必须从圆形时间开始，例如 M5 开始于 10:25:00 而不是 10:22:00
首先，不完整的集合可以像这个例子一样被省略，或者包括在内（所以我们可以有 10:20:00 5 分钟的条目）

Pandas 关于上下采样的文档给出了一个示例，但他们使用平均值作为上采样行的值，这在此处不起作用。我曾尝试使用groupby但agg无济于事。对于一个获得最高价和最低价的人来说可能并不难，但我不知道如何获得第一个开盘价和最后一个收盘价。

我尝试的是类似的东西：

但它会导致以下错误，我不明白：

因此，我们将不胜感激任何帮助。如果我选择的路径不起作用，请建议其他相对有效的方法（我有数百万行）。使用 Pandas 进行财务处理的一些资源也很好。

python stock pandas

2012-03-30T13:58:29.457

0 投票

3 回答

19100 浏览

python - 如何更改 numpy recarray 某些列的 dtype？

假设我有一个如下的recarray：

假设我想将某些列转换为浮点数。我该怎么做呢？我应该更改为 ndarray 并将它们更改回 rearray 吗？

python pandas numpy

2012-03-30T19:38:23.250

0 投票

1 回答

25678 浏览

python - Python中的控制图

我目前经常使用 R 进行统计过程控制。有了它，我可以生成控制图，例如EWMA、Shewhart、CUSUM和GAM / Loess平滑。

有谁知道使用 Python 制作这些类型图表的最佳方法？我最初看了，scikits.timeseries但它已经被罐头贡献给pandas。

我看了一下 pandas，虽然它确实具有 EWMA 功能，但我需要更多。

python charts pandas

2012-04-01T05:25:20.450

0 投票

1 回答

8641 浏览

python - 熊猫数据透视表日期

我有一个DataFrame带有日期列的熊猫。它不是一个索引。

我想使用每个位置每月的计数聚合在数据框上制作一个 pivot_table。

数据如下所示：

我用了：

pivot_table(cdiff, values='COUNT', rows=['DATE','LOCATION'], aggfunc=np.sum)

旋转这些值。我需要一种将 cdiff.DATE 转换为月份而不是日期的方法。我希望最终得到类似的结果：数据如下所示：

strftime我在 cdiff.DATE 上尝试了各种方法，但均未成功。它想将应用于字符串，而不是系列对象。

python datetime pandas

2012-04-01T07:56:42.677

0 投票

1 回答

660 浏览

python - python的Pandas数据支柱用于什么？

pandas 中至少有四个数据支柱。

->切片
->日期帧
->日期矩阵
->面板

这些的用例是什么。这些文件似乎突出了 slice 和 DataFrame。请给出用例的例子。我知道文档的位置。

python pandas

2012-04-03T22:10:49.247

0 投票

2 回答

607 浏览

python - 什么是 pandas 进行 summaryBy(...,full.dimension=T) 的有效方法

使用 R 中的 doBy 包，我们对组进行汇总，并得到与原始数据相同形状和顺序的结果：

DataFrame当按多个索引之一分组时，有没有办法在熊猫中做同样的事情？

python r pandas

2012-04-03T23:59:41.820

0 投票

3 回答

5378 浏览

python - Python Pandas 中的 GroupBy 函数，如 SUM(col_1*col_2)、加权平均等

是否可以直接计算两列的乘积（或例如总和）而不使用

使用起来要快得多（不到我机器上时间的一半）

但我真的不喜欢这样做。例如，计算每组的加权平均值很有用。这里的 lambda 方法是

并且再次比将助手除以 b.sum() 慢得多。

python pandas

2012-04-04T10:38:56.000

0 投票

3 回答

6147 浏览

python - 如何在 pandas 中创建日期时间索引

如何创建日期时间索引"foo"以用于原始数据系列。（例如，每 15 秒“foo”和每 30 秒“foo2”。）如果可以将原始系列插入“基本”数据帧，我想使用“foo”重铸数据帧。

如果想要将 df "foo" 和 df "foo2" 结合起来的系列，那么内存命中会是多少？用原始数据系列填充 foo 索引会更好吗？

编辑：之后import pandas，datetime.timedelta停止工作

python numpy pandas

2012-04-04T16:22:28.093

0 投票

1 回答

1889 浏览

python - 如何使用 Pandas MultiIndex 中只有一个标签的值列表进行索引

我正在尝试使用 pandas 多索引在顶级索引（日期）处选择部分切片，并将列表应用于二级索引（股票代码）。即下面我想要范围内的 AAPL 和 MSFT 的数据d1:d2。

部分切片工作正常，但不清楚如何从第二个索引中选择 AAPL 和 MSFT，同时避免中间的 GOOG。

如果我交换级别，它可以使用单个符号，而不是列表。

我想避免建立一个长的元组列表，即：

当传递给 ix 时，它确实有效。下面是我想要的输出。

谢谢，约翰

python pandas multi-index

2012-04-04T19:27:14.667

1 2 3 4 5 6 7 8 9 10

问题标签 [pandas]

Reference