问题标签 [data-wrangling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
62 浏览

python - Pandas DataFrame,将具有多个值的列分成多列并删除空值

我有一个数据框,它的一个特定列具有如下所示的温度值

我正在尝试创建一个分隔最低和最高温度的新列。在用“nan”填充的行中,我希望“,”之后的值也为“nan”。我该怎么做?我已经尝试了下面的代码,但它没有工作。

每当我运行上面的代码时,我都会收到以下错误

请帮我。

0 投票
1 回答
201 浏览

python - 如何修改数据框中新创建的列的多个行范围?

我在尝试为数据框中新创建的列修改多个行的值时遇到了麻烦,希望能得到一些帮助。如果以前有人问过这个问题,我深表歉意,如果您能指出正确的方向,我将不胜感激。我是 python 编码的新手

因此,我从多个公司的损益表中导入了一堆数据,这些数据合并为一个总数;并在进行上述修改以进行进一步分析之前对其进行清理:

输出如下所示:

我想要实现的是根据行索引将新创建的 Exp Category 列更改为多个值。例如,我想将第 1:12 行更改为旅游和娱乐等。当我使用下面的代码创建此分类时,它不会引发错误,但不会更改此列的 NA 分配值,我似乎无法弄清楚我在这里做错了什么。

输出仍然看起来像这样,带有关于返回-a-view-verus-a-copy 的警告消息:

我试图查看“SettingWithCopyWarning”消息,但尽管阅读了该材料,但我不明白如何解决它,并且非常感谢任何反馈!

提前致谢!

0 投票
2 回答
77 浏览

r - 重塑数据框,以便匹配的家庭成员拥有自己的列

我有一个数据框...

对于每一对双胞胎(同一个家庭的成员),我需要第二个“datacol”与其他双胞胎的数据。这应该只发生在匹配的双胞胎中,所以第 5 行(来自“c”族)应该有重复的空列。

理想情况下,到最后数据将如下所示......

我添加了一张图片来帮助说明我想要达到的目的。

在此处输入图像描述

我希望能够对所有列或选定的列执行此操作,并且最好使用 tidyverse。

0 投票
2 回答
104 浏览

python - Python 多键和转换为字典

我在 Python 2.6.6 中导入一个 txt 文件,需要做一些数据整理。我是 Python 新手,正在努力用谷歌搜索完成任务的每一步。你能帮忙或建议吗?

这是我的输入myData.txt,如下所示。标题不在数据中,但我把它放在这里以便于阅读。

这是我想要的熊猫数据框中的输出,如下所示。基本上,我想合并 key1 和 key2 并形成一个组合键,并将 group、v1 和 v2 放入一个字典中,其中 group 作为键,v1 v2 作为列表中的值(v1 是第一个元素,v2是第二个元素)。我在输出中不需要 v3 或 v4。

这就是我现在所拥有的。有人可以建议吗?

0 投票
1 回答
67 浏览

python - 按累计和分组行

我正在解决一个问题,通过使用属性的累积总和(在被排序之后)对行进行分组。但我是 python 新手,不知道如何处理它。请多多指教。任何帮助表示赞赏。

这是我的输入,这是我制作的熊猫数据框。如您所见,键和组都不是有序的。

对于数据处理,我需要按组计算 v1 order 的累积总和,它是针对具有相同 key 的行。所以我想我应该先点桌子。但我不确定。请建议。如果我需要先订购桌子,新桌子如下所示。基本上,我将具有相同键的行放在一起,并按组对这些行进行排序。

这是我想要的输出。主要是我需要按组的顺序做v1的累积和,一旦累积和达到阈值,这里说30,累积停止,下一行重新开始。这个过程一直持续到它到达同一组的最后一行。最后,如果最后一个 bin(s) 小于 30,则将它们与较低的 bin(s) 组合,如 1_B 所示,其中第 2 组和第 6 组加起来只有 16 (<30),所以他们需要与第 1 组相结合。

请注意,bin 编号可能与我在这里的不同。只要它为同一组提供相同的 bin 编号,它就可以工作。例如,您可以将 1,2,3 完全替换为 A,B,C,或 3,2,1,或 A100,B201,M434。

编辑: 现在我在下面发布了一个完整的解决方案作为答案。享受。

0 投票
2 回答
49 浏览

r - 如何使用数据集从另一个数据集中提取特定列?

如何使用数据集从另一个数据集中提取特定列?

0 投票
1 回答
102 浏览

python - 在 Pandas Dataframe 中查找相似的行并减去特定的列值

我知道这里有类似的问题和解决方案,但我似乎没有找到确切的解决方案。

想要找到与“除了一个”列相似的行。

所以,

所以我试图得到的逻辑是:

到目前为止,我已经使用 df.loc 和 df.duplicated 到达某个地方。问题和数据有点复杂,所以我可以在这里发布代码。

对此的任何帮助将不胜感激。

谢谢,罗伯

0 投票
1 回答
481 浏览

r - 如何根据数据框的列将 Reduce() 应用于组?

几天前我发布了这个问题:如何在 R 中创建“动态”列?(参考,这样你就可以更好地理解我在这个问题上的要求)创建一个“动态”列,解决方案是使用 Reduce() 函数。现在,我希望基本上做同样的事情(计算余额变化作为参考前一行),但使用基于特定列过滤的数据框子集。简而言之,我想做的是执行相同的计算,但只针对组,所以我将 X 值作为 A、B 和 C 组的起始资本,余额的变化将“重置”为起始资本每组。

我知道上面的解释不是很清楚,所以这是我想要实现的快速简化版本:

显然有一种更有效的方法可以做到这一点,但这就是我想要找到的。我解决它的方法是创建一个函数,将数据框和我想要应用计算的类作为输入,并输出具有该组修改值的数据框,然后使用一些应用函数来执行对所有组的操作。但是在开始创建该功能之前,我想问是否有办法用现有的方法来做到这一点。我正在考虑沿管道运算符使用 group_by() ,但由于 Reduce() 不是来自 tidyverse 库,所以它不起作用。

0 投票
3 回答
49 浏览

r - R - 我可以使用正则表达式将数据从一列拆分为新的多列和二进制标识符吗?

我有一个关于 D&D 角色的数据集,看起来像这样

我想分离由“|”指示的多类分类的类 此外,如果一个角色没有兼职,我想在那个插槽中放置一个“NA”或“None”

有没有一种干净的方法可以做到这一点?

0 投票
3 回答
115 浏览

r - R帮助将因子数据从长转换为宽并分配逻辑值

我有长格式的数据,如下所示:

数据:

我想创建一个宽数据框,每个“代码”作为其自己的列标记为 TRUE/FALSE,具体取决于是否存在关联的“id”,如下面的最小示例所示:

抱歉,如果之前已经回答过这个问题(我很肯定它有各种形式),我似乎无法理解我发现的类似例子。