问题标签 [pandas-apply]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
50 浏览

pandas - 重复值熊猫

我是熊猫新手。我一直试图在这里解决一个问题

这是问题陈述,我想删除我有重复 A 但不重复 B 的任何行

这是我想要的输出类型

在此处输入图像描述

0 投票
1 回答
28 浏览

python - 我编写了一个返回两个数据帧的自定义函数,无论如何在 df.apply(custumF) 中使用这个自定义函数并获取两个数据帧?

我已经编写了一个自定义函数来转换输入数据帧并返回两个数据帧,无论如何都可以使用这个自定义函数

df.apply(custumF)

并获得两个输出数据帧,除了

df.apply(custumF[0])df.apply(custumF[1])

0 投票
2 回答
127 浏览

python - 在 pandas 中使用带有 `apply()` 的 `scipy.stats` 函数时出错

我正在尝试计算与数据框中的各个条目相关联的百分位数(使用列中值的分布)。我确定我遗漏了一些非常基本的东西,但无法弄清楚为什么在运行以下代码时出现错误,

这是我得到的错误,

0 投票
3 回答
3430 浏览

pandas - Pandas Dataframe Apply - 附加到列表的 lambda 函数

我有一个包含在熊猫数据框列中的列表。我想将“price_label”列中的值附加到列表中。

我目前正在使用我为此制作的功能,但这是最好的方法吗?我觉得我在这里错过了什么?

我的方法有效,但它并不漂亮。有什么建议么。

之前的列表:

功能 :

输出

0 投票
3 回答
319 浏览

python - Pandas 不适用于 Spark 并行代码

我正在尝试在并行化代码中使用 Pandas“应用”,但“应用”根本不起作用。我们可以在使用 Spark(在 RDD 上并行化)时在分发给执行程序的代码中使用“应用”吗?

代码:

0 投票
0 回答
40 浏览

pandas - Pandas - 将多行数据合并到单行

我正在尝试将多行中的数据合并到一行中。

但我收到一个错误:TypeError: unhashable type: 'Issue'

下面是我的数据的样子:

预期输出:

0 投票
1 回答
350 浏览

python - Python Pandas - 带有 apply() 和 rolling() 的 groupby() 非常慢

首先,我对 Python 和 Pandas 还很陌生,所以请耐心等待并尽可能简单地回答。此外,如果您可以详细说明与我的示例中的代码不同的任何代码,或者指出一个可靠的参考资料以使其易于理解,我将不胜感激。

我有一个包含 60 多列和 80 万行(并且还在增长)的每月数据的数据框(df1) ,用于 6000 多个位置。我正在尝试根据位置许可证号('lic_num', int)、月份('mo_yr', date) 计算滚动平均值(3 个月、12 个月、YTD 等)。我已经使用 apply() 成功地做到了这一点。问题是 apply() 感觉非常慢,需要 10 分钟。这不是这个项目的主要问题,因为这不会是需要按需运行的东西,但我希望在我需要一个项目更快执行的情况下更有效地编写类似的代码。这是我用来实现结果的数据框(df1)和我的代码的示例

0 投票
2 回答
66 浏览

pandas - 将函数应用于熊猫数据框中的特定选定列

我有以下数据框:

在此处输入图像描述

我可以应用我的自定义函数来输出列表中的开始、结束项目,如下所示:

在此处输入图像描述

但我想将该函数应用于选定的列 x 和 z。

我正在尝试如下参考此链接

像这样:

如何使用仅应用于 x 和 z 列且 y 列未更改的函数来获取输出。

0 投票
1 回答
218 浏览

python - 使用 apply 函数在 pandas 中创建一个具有舍入值的新列

我的数据框如下:

kate 的值是''关于薪水和round_salary,我用''替换它的值,所以它在单元格中什么都不显示。

问题:

我想根据将薪水四舍五入到最接近的 10,000 创建一个新的薪水列。

结果如下所示

我的代码如下所示:

输出错误是:

谁知道怎么修它?我发现 map 或 apply 函数可以解决它,提前感谢任何人的帮助。~

0 投票
3 回答
217 浏览

python - pandas - 遍历行并计算 - 更快

我已经有了一个解决方案 - 但它非常慢(800 行需要 13 分钟)。这是数据框的示例:

在一个新列中,我想计算 col2 的先前值中有多少(例如三个)大于或等于 col1 的行值。我也继续第一行。

这是我的慢代码:

我获得了更快的解决方案 - 感谢您抽出宝贵时间!

这是我得到的结果: