问题标签 [pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
925 浏览

panel - 用于股票投资组合的 Pandas 面板

我有一个熊猫投资定价数据面板,我想在其中添加两个新的短轴列(投资组合持有和基准持有)。

初始面板是:

这在概念上看起来像:

是否可以创建一个只有这些列的匹配面板,然后以某种方式合并两者?

对实现这一目标的可能替代方法的想法?

Panel 数据结构的文档非常简单。

编辑:

我创建了第二个面板并尝试了 p1.join(p2) 但这会产生列重叠错误。

这是我想附加的第二个面板:

0 投票
2 回答
2467 浏览

python - python:熊猫安装错误

我有EPD 7.1for的学术发行版MacOS 10.6.x,其中有 pandas0.3版本。最新的官方版本是0.5.0所以我虽然我会升级到最新的。

这是我所做的:

  1. zip这里保存了源文件
  2. 执行sudo python setup.py install
  3. 通过执行运行测试nosetests pandas

请记住,我是 python 的新手。任何有关我的安装失败原因的见解将不胜感激。以下是错误的片段。整个日志可以在错误日志中找到

结果:

在 55.011 秒内运行 1498 次测试失败(SKIP=4,errors=91,failures=14)

@wesm - 感谢您的快速回复。下次我一定会使用邮件列表。所以我实际上回溯了......安装了官方0.5.0版本并从源代码编译。我收到 3 个错误(见下文)。我运行时没有遇到任何问题sudo python setup.py install

0 投票
1 回答
4617 浏览

python - Python map() 函数输出到 Pandas DataFrame

我利用 python 的 map() 函数将参数传递给交易模型并输出结果。我使用 itertools.product 来查找这两个参数的所有可能组合,然后将组合传递给名为“run”的函数。函数 run 返回一个 pandas 的返回数据框。列标题是两个参数的元组和收益的锐化比率。见下文:

我的 main() 函数使用 Pool() 功能在所有 8 个内核上运行 map():

我实现了map函数只能输出列表。输出是返回的数据帧中的标头列表我的 print test1 输出如下所示:

我的最终目标是拥有一个带有索引的熊猫数据框(所有返回都相同),(ENTRYMULT,PXITR1PERIOD,SHARPE)的列标题以及下面的相应返回。然后,我将对所有回报系列进行成对相关性计算。

0 投票
3 回答
4908 浏览

python - 如何在 pandas 系列字符串上应用切片

我正在玩熊猫并尝试在一系列字符串对象上应用字符串切片。该系列没有被切片,而是被切片:

另一方面:

我通过使用 map 函数让它工作,但我认为我错过了一些关于它应该如何工作的东西。

非常感谢澄清。

0 投票
1 回答
1044 浏览

python - 从记录中用熊猫索引几个 csv 文件?

我有一个"file1", "file2", ..."包含两列但没有标题标签的 csv 文件列表 ( )。我想为它们分配标题标签,并将它们分配DataFrame为由文件索引然后由这些列标签索引的。例如,我试过:

这会产生一个 DataFrame,测试,"myfile1", "myfile2"...但是,我希望每个都被索引,"col1"以及"col2"。我的问题是:

  1. 我怎样才能使第一个索引是文件,第二个索引是我分配的列(在变量中labels)?这样我就可以写:

    test["myfile1"]["col1"]

现在,test["myfile1"]只给了我一系列的记录。

  1. 另外,我怎样才能重新索引事物,以便第一个索引是每个文件的列标签,第二个是文件名?这样我就可以写:

    test["col1"]["myfile1"]

print test["col1"]然后查看"col1"显示的值myfile1, myfile2等。

0 投票
3 回答
35966 浏览

python - 使用 python pandas 在多个列中进行选择?

df在 pandas 中有一个使用pandas.read_tablecsv 文件构建的数据框。数据框有几列,并由其中一列索引(这是唯一的,因为每一行都有一个用于索引的列的唯一值。)

如何根据应用于多列的“复杂”过滤器选择数据框的行?colA我可以轻松地选择列大于 10的数据框切片,例如:

但是,如果我想要一个过滤器,比如:选择任何列大于 10的切片df,该怎么办?

或者 for 的值colA大于 10 但 for 的值colB小于 5?

这些是如何在熊猫中实现的?谢谢。

0 投票
1 回答
1292 浏览

python - DataFrame to Panel 由 Pandas 的非唯一列索引

下面的代码应该做我想做的事,但是当循环完成 20% 时它需要 10gb 的内存。

0 投票
0 回答
355 浏览

python - 在较旧的安全计算机上运行 Python/Numpy/Pandas

我正在尝试在工作中运行一个脚本,该脚本使用基于 Numpy 构建的 Python 标记数组模块 Pandas。Python 每次都会因指向Numpy/core/multiarray.pyc的“未处理异常”错误而崩溃。当我通过 IDLE、Python 或 PythonW 执行代码时会发生这种情况。我没有做任何复杂的事情或处理大量数据,因此,作为测试,我将代码带回家并在我的个人计算机上安装了相同版本的 Python/Numpy/Pandas 运行它,所以它工作正常。我有一台较旧且非常安全的计算机在工作,我想知道是否有人知道有关 numpy 的提示,如果在这种类型的环境中运行可能会导致它崩溃。

我将 Python 2.6.2 与 Numpy 1.6.1 和 Pandas 0.7.0 一起使用。在工作中,我有一台运行 32 位 Windows XP SP3 和 Intel Duo 2 e8400 的戴尔。

是否存在可能导致问题的防火墙设置、注册表设置或其他可能未设置的设置?

0 投票
4 回答
20301 浏览

python - 为什么在 2012 年 python 中的 pandas 合并比 R 中的 data.table 合并更快?

我最近遇到了python 的pandas库,根据这个基准,它执行非常快速的内存合并。它甚至比 R 中的data.table包(我选择的分析语言)还要快。

为什么pandas比 快那么多data.table?是因为 python 比 R 具有固有的速度优势,还是有一些我不知道的权衡?有没有办法在data.table不诉诸merge(X, Y, all=FALSE)and的情况下执行内部和外部联接merge(X, Y, all=TRUE)

比较

这是用于对各种包进行基准测试的R 代码Python 代码。

0 投票
1 回答
2148 浏览

python - Pandas DataFrame 序列化

我在将 pandas 数据帧的条目写入字符串缓冲区时遇到问题。

可以通过将字符串缓冲区传递给 read_csv 函数来初始化数据帧。

做相反的事情并不简单,因为该DataFrame.to_csv函数只接受字符串文件路径。

这种行为有什么好的理由吗?在不先将内容存储在磁盘上的情况下,序列化 pandas DataFrame 的最佳方法是什么?