问题标签 [pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
4902 浏览

python - python中的滚动中位数

我有一些基于每日收盘价的股票数据。我需要能够将这些值插入 python 列表并获得最后 30 次关闭的中值。有没有这样做的python库?

0 投票
3 回答
11825 浏览

python - Compute a compounded return series in Python

Greetings all, I have two series of data: daily raw stock price returns (positive or negative floats) and trade signals (buy=1, sell=-1, no trade=0).

The raw price returns are simply the log of today's price divided by yesterday's price:

An example:

The trade signal series looks like this:

To get the daily returns based on the trade signals:

These daily returns might look like this:

I need to use the daily_returns series to compute a compounded returns series. However, given that there are 0 values in the daily_returns series, I need to carry over the last non-zero compound return "through time" to the next non-zero compound return.

For example, I compute the compound returns like this (notice I am going "backwards" through time):

and the resulting list:

My goal is to carry over the last non-zero return to the accumulate these compound returns. That is, since the return at index i is dependent on the return at index i+1, the return at index i+1 should be non-zero. Every time the list comprehension encounters a zero in the daily_return series, it essentially restarts.

0 投票
2 回答
8133 浏览

python - 按升序对 pandas DataMatrix 进行排序

pandas DataFrame 对象有一个sort 方法,但 pandas DataMatrix 对象没有。

按索引(日期列)按升序对该 DataMatrix 对象进行排序的最佳方法是什么?

结果应该是 DataMatrix,其中 2/8/2011 作为第一个条目,2/16/2011 作为最后一个条目。Compound_ret 列中的条目应在排序中遵循其日期。所以结果应该是这样的:

0 投票
2 回答
23723 浏览

python - 如何使用 Pandas 获得两个时间序列之间的相关性

我有两组温度日期,它们有规律(但不同)时间间隔的读数。我试图获得这两组数据之间的相关性。

我一直在和Pandas一起玩,试图做到这一点。我创建了两个时间序列,并且正在使用TimeSeriesA.corr(TimeSeriesB). 但是,如果 2 timeSeries 中的时间不完全匹配(它们通常相差几秒钟),我会得到 Null 作为答案。如果可以的话,我可以得到一个体面的答案:

a)在每个 TimeSeries 中插入/填充缺失的时间(我知道这在 Pandas 中是可能的,我只是不知道该怎么做)

b) 从 python 日期时间对象中去除秒数(将秒数设置为 00,不更改分钟数)。我会失去一定程度的准确性,但不会很大

c) 在 Pandas 中使用其他东西来获取两个 timeSeries 之间的相关性

d)在python中使用一些东西来获取两个浮点数列表之间的相关性,每个浮点数都有一个对应的日期时间对象,同时考虑到时间。

有人有什么建议吗?

0 投票
7 回答
614735 浏览

python - Improve subplot size/spacing with many subplots in matplotlib

Very similar to this question but with the difference that my figure can be as large as it needs to be.

I need to generate a whole bunch of vertically-stacked plots in matplotlib. The result will be saved using figsave and viewed on a webpage, so I don't care how tall the final image is as long as the subplots are spaced so they don't overlap.

No matter how big I allow the figure to be, the subplots always seem to overlap.

My code currently looks like

0 投票
1 回答
3724 浏览

python - 使用 pandas,我如何以有效的方式按组对大型 DataFrame 进行子采样?

我正在尝试根据分组对 DataFrame 的行进行子采样。这是一个例子。假设我定义了以下数据:

如果我按group1and分组group2,那么每组中的行数在这里:

(如果有更简洁的计算方法,请告诉。)

我现在想构建一个 DataFrame,它从每组中随机选择一个行。我的建议是这样做:

哪个有效。但是,我的真实数据大约有 250 万行和 12 列。如果我通过构建自己的数据结构来执行此操作,我可以在几秒钟内完成此操作。但是,我上面的实现并没有在 30 分钟内完成(并且似乎没有内存限制)。附带说明一下,当我尝试在 R 中实现它时,我首先尝试plyr了 ,它也没有在合理的时间内完成;但是,使用的解决方案data.table很快就完成了。

我如何让它快速工作pandas?我想喜欢这个包裹,所以请帮忙!

0 投票
1 回答
1291 浏览

django - 熊猫 + Django + mod_wsgi + virtualenv

当在虚拟环境下和内部导入时,Pandas 正在生成“模块”对象没有属性“核心” 。它可以在虚拟环境内的开发服务器下正常运行。djangomod_wsgidjango

其他模块,例如:numpy 没有问题,所以我认为这意味着虚拟环境已正确设置mod_wsgi。任何意见,将不胜感激。

分期.wsgi

错误

蟒蛇路径

0 投票
3 回答
31726 浏览

python - 用熊猫附加两个数据框

当我尝试按行合并两个数据框时:

我收到以下错误:

第一个数据框的索引从0到38开始,第二个从0到48。我不明白我必须在合并之前修改其中一个数据框的索引,但我不知道如何.

谢谢你。

这是两个数据框:

data1

data2

第一列是索引

0 投票
4 回答
28229 浏览

python - 从 pandas 数据帧将字符串(类别)数组转换为 int 数组

我正在尝试做一些与之前的问题非常相似的事情,但我得到了一个错误。我有一个包含特征的熊猫数据框,标签我需要进行一些转换以将特征和标签变量发送到机器学习对象中:

然后我有:

输出控制台首先产生:

然后我遇到以下错误:

是否可以将数据框中的类别变量“类型”转换为 int 类型?'type' 可以取值 'single'、'touching'、'nuclei'、'dusts',我需要用 0、1、2、3 等 int 值进行转换。

0 投票
12 回答
603576 浏览

python - 用熊猫循环遍历数据帧的最有效方法是什么?

我想以顺序方式对数据框中的财务数据执行我自己的复杂操作。

例如,我正在使用从Yahoo Finance获取的以下 MSFT CSV 文件:

然后我执行以下操作:

这是最有效的方法吗?鉴于 pandas 对速度的关注,我认为必须有一些特殊的函数来迭代值,以一种也检索索引的方式(可能通过生成器来提高内存效率)?df.iteritems不幸的是,只能逐列迭代。