问题标签 [pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
4902 浏览

python - python中的滚动中位数

我有一些基于每日收盘价的股票数据。我需要能够将这些值插入 python 列表并获得最后 30 次关闭的中值。有没有这样做的python库?

0 投票
3 回答
11825 浏览

python - Compute a compounded return series in Python

Greetings all, I have two series of data: daily raw stock price returns (positive or negative floats) and trade signals (buy=1, sell=-1, no trade=0).

The raw price returns are simply the log of today's price divided by yesterday's price:

An example:

The trade signal series looks like this:

To get the daily returns based on the trade signals:

These daily returns might look like this:

I need to use the daily_returns series to compute a compounded returns series. However, given that there are 0 values in the daily_returns series, I need to carry over the last non-zero compound return "through time" to the next non-zero compound return.

For example, I compute the compound returns like this (notice I am going "backwards" through time):

and the resulting list:

My goal is to carry over the last non-zero return to the accumulate these compound returns. That is, since the return at index i is dependent on the return at index i+1, the return at index i+1 should be non-zero. Every time the list comprehension encounters a zero in the daily_return series, it essentially restarts.

0 投票
2 回答
8133 浏览

python - 按升序对 pandas DataMatrix 进行排序

pandas DataFrame 对象有一个sort 方法,但 pandas DataMatrix 对象没有。

按索引(日期列)按升序对该 DataMatrix 对象进行排序的最佳方法是什么?

结果应该是 DataMatrix,其中 2/8/2011 作为第一个条目,2/16/2011 作为最后一个条目。Compound_ret 列中的条目应在排序中遵循其日期。所以结果应该是这样的:

0 投票
2 回答
23723 浏览

python - 如何使用 Pandas 获得两个时间序列之间的相关性


我一直在和Pandas一起玩,试图做到这一点。我创建了两个时间序列,并且正在使用TimeSeriesA.corr(TimeSeriesB). 但是,如果 2 timeSeries 中的时间不完全匹配(它们通常相差几秒钟),我会得到 Null 作为答案。如果可以的话,我可以得到一个体面的答案:

a)在每个 TimeSeries 中插入/填充缺失的时间(我知道这在 Pandas 中是可能的,我只是不知道该怎么做)

b) 从 python 日期时间对象中去除秒数(将秒数设置为 00,不更改分钟数)。我会失去一定程度的准确性,但不会很大

c) 在 Pandas 中使用其他东西来获取两个 timeSeries 之间的相关性



0 投票
7 回答
614735 浏览

python - Improve subplot size/spacing with many subplots in matplotlib

Very similar to this question but with the difference that my figure can be as large as it needs to be.

I need to generate a whole bunch of vertically-stacked plots in matplotlib. The result will be saved using figsave and viewed on a webpage, so I don't care how tall the final image is as long as the subplots are spaced so they don't overlap.

No matter how big I allow the figure to be, the subplots always seem to overlap.

My code currently looks like

0 投票
1 回答
3724 浏览

python - 使用 pandas,我如何以有效的方式按组对大型 DataFrame 进行子采样?

我正在尝试根据分组对 DataFrame 的行进行子采样。这是一个例子。假设我定义了以下数据:



我现在想构建一个 DataFrame,它从每组中随机选择一个行。我的建议是这样做:

哪个有效。但是,我的真实数据大约有 250 万行和 12 列。如果我通过构建自己的数据结构来执行此操作,我可以在几秒钟内完成此操作。但是,我上面的实现并没有在 30 分钟内完成(并且似乎没有内存限制)。附带说明一下,当我尝试在 R 中实现它时,我首先尝试plyr了 ,它也没有在合理的时间内完成;但是,使用的解决方案data.table很快就完成了。


0 投票
1 回答
1291 浏览

django - 熊猫 + Django + mod_wsgi + virtualenv

当在虚拟环境下和内部导入时,Pandas 正在生成“模块”对象没有属性“核心” 。它可以在虚拟环境内的开发服务器下正常运行。djangomod_wsgidjango

其他模块,例如:numpy 没有问题,所以我认为这意味着虚拟环境已正确设置mod_wsgi。任何意见,将不胜感激。




0 投票
3 回答
31726 浏览

python - 用熊猫附加两个数据框









0 投票
4 回答
28229 浏览

python - 从 pandas 数据帧将字符串(类别)数组转换为 int 数组





是否可以将数据框中的类别变量“类型”转换为 int 类型?'type' 可以取值 'single'、'touching'、'nuclei'、'dusts',我需要用 0、1、2、3 等 int 值进行转换。

0 投票
12 回答
603576 浏览

python - 用熊猫循环遍历数据帧的最有效方法是什么?


例如,我正在使用从Yahoo Finance获取的以下 MSFT CSV 文件:


这是最有效的方法吗?鉴于 pandas 对速度的关注,我认为必须有一些特殊的函数来迭代值,以一种也检索索引的方式(可能通过生成器来提高内存效率)?df.iteritems不幸的是,只能逐列迭代。