问题标签 [pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 数据对齐后无法导出为 CSV
我有两组数据,只想保留两组具有共同日期的数据。我用 导入数据集read_csv()
,称它们为df1
,df2
。
然后运行:
检查后,似乎DF是一个元组。目标是使用 . 导出对齐的数据(仅在常见日期)DF.to_csv(path)
。它失败并显示“元组”对象没有属性“to_csv”的消息。我不明白为什么加入创建了一个元组。这不应该仍然是可以导出到 CSV 的数据框吗?
是否有更好的命令可以使用,以便可以轻松地将其导出到 .csv 文件?
python - 将间隔日期时间值转换为任意频率的时间序列
我有以下数据结构:
这是包含开始日期、结束日期和值的间隔(日期之间记录的一些指标)。
为了进一步的数据分析,我需要生成具有所需频率的时间序列: 每月/每天/每小时/半小时时间序列。例如,每小时数据:
是否有任何 python 库可以帮助实现这种数据转换?
python - 从多个文件创建熊猫数据框
我正在尝试创建一个熊猫DataFrame
,它适用于单个文件。如果我需要为具有相同数据结构的多个文件构建它。因此,我有一个文件名列表,而不是单个文件名,我想从中创建DataFrame
.
不确定DataFrame
在 pandas 中追加到 current 的方法是什么,或者 pandas 有没有办法将文件列表吸入DataFrame
.
python - pandas,python - 如何在时间序列中选择特定时间
我现在工作了很长一段时间,使用 python 和 pandas 分析一组每小时数据,发现它非常好(来自 Matlab。)
现在我有点卡住了。我创造了DataFrame
这样的:
我现在要做的是在 10 点到 13 点和 20 点到 23 点选择所有日期的数据,以使用这些数据进行进一步计算。到目前为止,我使用切片数据
而且我肯定会得到某种脏循环来选择所需的数据。但是必须有一种更优雅的方式来准确索引我想要的内容。我确信这是一个常见问题,伪代码中的解决方案应该看起来像这样:
提到我是一名工程师而不是程序员:) ...然而
pandas - 为什么会有这个 read_fwf() 错误?
当我试图读取固定宽度的文件时,它给了我
问题是,即使我有重复的值,我仍然希望合并数据。怎么能绕过这个?
python - 在 Pandas csv 阅读器中指定数据类型
我刚刚开始使用 Pandas,我正在使用该read_csv()
方法读取 csv 文件。我遇到的困难是阻止熊猫将我的电话号码转换为大数字,而不是将它们保存为字符串。我定义了一个转换器,它只留下数字,但它们仍然转换为数字。当我将转换器更改为在电话号码前加上“z”时,它们就保持不变。有没有办法在不修改字段值的情况下保留它们的字符串?
python-2.7 - Python Pandas:聚合从 0.7.1 更改为 0.7.3
由于某种原因,我编写并使用 0.7.1 的脚本不适用于 0.7.3
我恢复到 0.7.1,一切正常。问题似乎与聚合方法有关。我正在对agg
不同的列(np.mean
,np.sum
...等)使用不同聚合方法的字典。使用 0.7.3 运行时,这会引发
错误。
对此有什么想法吗?我想让一切都在 0.7.3 版本中工作......也许一些语法改变了?
pandas - 为什么 read_fwf() 不能输出正确的文件内容?
这是文件内容(名为 sample.txt)
我输入阅读它的代码:
我无法理解这个输出,因为它与文件完全不同。任何意见和建议都会有所帮助。谢谢
python - Pandas:排序数据透视表
只是第一次尝试熊猫,我试图先按索引对数据透视表进行排序,然后按系列中的值排序。
到目前为止,我已经尝试过:
按索引然后值对数据透视表进行排序的正确方法是什么?
python - Pandas:这里的内存泄漏在哪里?
我在pythonpandas
中使用库面临内存泄漏问题。我在我的类中创建对象并且我有方法,可以根据我的条件改变数据框的大小。在更改数据框大小并创建新的熊猫对象后,我在课堂上重写了原始的 pandas.dataframe。但是即使在显着减少初始表之后,内存使用率也非常高。一些简短示例的代码(我没有编写流程管理器,请参阅任务管理器):pandas.dataframe
在创建数据框之前,我大约有。15 mb 的内存使用量
创建后 - 67mb
更改大小后 - 67 mb
删除原始数据框后 - 35mb
删除缩小表后 - 31 mb。
16 兆?
我在 Windows 7 (x64) 机器 pandas 上使用 python 2.7.2(x32)。版本是 0.7.3。麻木的。版本是 1.6.1