问题标签 [pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
panel - 用于股票投资组合的 Pandas 面板
我有一个熊猫投资定价数据面板,我想在其中添加两个新的短轴列(投资组合持有和基准持有)。
初始面板是:
这在概念上看起来像:
是否可以创建一个只有这些列的匹配面板,然后以某种方式合并两者?
对实现这一目标的可能替代方法的想法?
Panel 数据结构的文档非常简单。
编辑:
我创建了第二个面板并尝试了 p1.join(p2) 但这会产生列重叠错误。
这是我想附加的第二个面板:
python - python:熊猫安装错误
我有EPD 7.1
for的学术发行版MacOS 10.6.x
,其中有 pandas0.3
版本。最新的官方版本是0.5.0
所以我虽然我会升级到最新的。
这是我所做的:
zip
从这里保存了源文件- 执行
sudo python setup.py install
- 通过执行运行测试
nosetests pandas
请记住,我是 python 的新手。任何有关我的安装失败原因的见解将不胜感激。以下是错误的片段。整个日志可以在错误日志中找到
结果:
在 55.011 秒内运行 1498 次测试失败(SKIP=4,errors=91,failures=14)
@wesm - 感谢您的快速回复。下次我一定会使用邮件列表。所以我实际上回溯了......安装了官方0.5.0版本并从源代码编译。我收到 3 个错误(见下文)。我运行时没有遇到任何问题sudo python setup.py install
python - Python map() 函数输出到 Pandas DataFrame
我利用 python 的 map() 函数将参数传递给交易模型并输出结果。我使用 itertools.product 来查找这两个参数的所有可能组合,然后将组合传递给名为“run”的函数。函数 run 返回一个 pandas 的返回数据框。列标题是两个参数的元组和收益的锐化比率。见下文:
我的 main() 函数使用 Pool() 功能在所有 8 个内核上运行 map():
我实现了map函数只能输出列表。输出是返回的数据帧中的标头列表我的 print test1 输出如下所示:
我的最终目标是拥有一个带有索引的熊猫数据框(所有返回都相同),(ENTRYMULT,PXITR1PERIOD,SHARPE)的列标题以及下面的相应返回。然后,我将对所有回报系列进行成对相关性计算。
python - 从记录中用熊猫索引几个 csv 文件?
我有一个"file1", "file2", ..."
包含两列但没有标题标签的 csv 文件列表 ( )。我想为它们分配标题标签,并将它们分配DataFrame
为由文件索引然后由这些列标签索引的。例如,我试过:
这会产生一个 DataFrame,测试,"myfile1", "myfile2"...
但是,我希望每个都被索引,"col1"
以及"col2"
。我的问题是:
我怎样才能使第一个索引是文件,第二个索引是我分配的列(在变量中
labels
)?这样我就可以写:test["myfile1"]["col1"]
现在,test["myfile1"]
只给了我一系列的记录。
另外,我怎样才能重新索引事物,以便第一个索引是每个文件的列标签,第二个是文件名?这样我就可以写:
test["col1"]["myfile1"]
或print test["col1"]
然后查看"col1"
显示的值myfile1, myfile2
等。
python - 使用 python pandas 在多个列中进行选择?
我df
在 pandas 中有一个使用pandas.read_table
csv 文件构建的数据框。数据框有几列,并由其中一列索引(这是唯一的,因为每一行都有一个用于索引的列的唯一值。)
如何根据应用于多列的“复杂”过滤器选择数据框的行?colA
我可以轻松地选择列大于 10的数据框切片,例如:
但是,如果我想要一个过滤器,比如:选择任何列大于 10的切片df
,该怎么办?
或者 for 的值colA
大于 10 但 for 的值colB
小于 5?
这些是如何在熊猫中实现的?谢谢。
python - DataFrame to Panel 由 Pandas 的非唯一列索引
下面的代码应该做我想做的事,但是当循环完成 20% 时它需要 10gb 的内存。
python - 在较旧的安全计算机上运行 Python/Numpy/Pandas
我正在尝试在工作中运行一个脚本,该脚本使用基于 Numpy 构建的 Python 标记数组模块 Pandas。Python 每次都会因指向Numpy/core/multiarray.pyc的“未处理异常”错误而崩溃。当我通过 IDLE、Python 或 PythonW 执行代码时会发生这种情况。我没有做任何复杂的事情或处理大量数据,因此,作为测试,我将代码带回家并在我的个人计算机上安装了相同版本的 Python/Numpy/Pandas 运行它,所以它工作正常。我有一台较旧且非常安全的计算机在工作,我想知道是否有人知道有关 numpy 的提示,如果在这种类型的环境中运行可能会导致它崩溃。
我将 Python 2.6.2 与 Numpy 1.6.1 和 Pandas 0.7.0 一起使用。在工作中,我有一台运行 32 位 Windows XP SP3 和 Intel Duo 2 e8400 的戴尔。
是否存在可能导致问题的防火墙设置、注册表设置或其他可能未设置的设置?
python - 为什么在 2012 年 python 中的 pandas 合并比 R 中的 data.table 合并更快?
我最近遇到了python 的pandas库,根据这个基准,它执行非常快速的内存合并。它甚至比 R 中的data.table包(我选择的分析语言)还要快。
为什么pandas
比 快那么多data.table
?是因为 python 比 R 具有固有的速度优势,还是有一些我不知道的权衡?有没有办法在data.table
不诉诸merge(X, Y, all=FALSE)
and的情况下执行内部和外部联接merge(X, Y, all=TRUE)
?
这是用于对各种包进行基准测试的R 代码和Python 代码。
python - Pandas DataFrame 序列化
我在将 pandas 数据帧的条目写入字符串缓冲区时遇到问题。
可以通过将字符串缓冲区传递给 read_csv 函数来初始化数据帧。
做相反的事情并不简单,因为该DataFrame.to_csv
函数只接受字符串文件路径。
这种行为有什么好的理由吗?在不先将内容存储在磁盘上的情况下,序列化 pandas DataFrame 的最佳方法是什么?