问题标签 [data-wrangling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
75 浏览

python - 将最后一行的值添加到此行

我想在按名称分组时获取最后一行的值。例如,第 2 行中名字 Walter 的最后一次迭代,我想在 Col1 中获取 Dog + "、" + Cat 和 Beer + "、" + Wine 在 Col3 中。有很多列,所以我想根据索引/列位置而不是列名来制作它。

这是我想要的输出:

这是我尝试过的(但不起作用):

我读到使用 for 循环遍历 pandas 中的行是不受欢迎的,所以我想通过使用矢量化或应用(或其他一些有效的方式)来获得输出。

0 投票
1 回答
43 浏览

r - 我怎样才能让两张桌子互相填充NA?

我遇到了两个数据框的一个小问题。基本上,两者都包含值和 NA,并且具有完全相同的格式(列、名称等),每个表都是 292 行长。

一个中的 NA 对应于另一个中的值,反之亦然,例如,顶部表格中的前三行是底部表格中的 NA,而底部表格中的第 4 行和第 5 行是顶部表格中的 NA。

我正在寻找一种合并这两个表的方法,以最小化 NA 的数量,即从顶部表中获取第 1、2 和 3 行,从底部表中获取第 4 行,依此类推。(我知道第 2 行在两者中都是 NA;最终结果仍然会有 NA,只是少了很多)。有人可以帮帮我吗?

PS 我已经尝试了我从基础 R 和 dplyr 包中知道的所有加入和/或合并功能。

提前致谢。

0 投票
2 回答
131 浏览

r - 格式化 R 中表的分组数据

我正在尝试以表格格式显示我的数据,但我不知道如何重新排列我的数据以以正确的格式显示它。我习惯于为绘图争吵数据,但在准备表格时我发现自己有点迷茫。这似乎是非常基本的事情,但我无法在这里找到关于我做错了什么的解释。

我有 3 列数据,TypeYearn。现在格式化的数据会生成一个如下所示的表:

我想要做的是Type作为行名,Year作为列名,并n像这样填充表格内容:

从这一点开始,错误可能已经在上游发生。使用完整的原始数据集,我通过执行以下操作得到了这个输出:

这是dput()输出

0 投票
3 回答
45 浏览

r - 自动合并列,合并值在容器中用分隔符分隔

我有一个大数据框,其中有很多列的列.名。这是我在以下示例中的方法:

产生一个逗号分隔的列Combined1, Combined2, Combined3:

我的问题是,大约有 20-30 列montue并且我在创建一个方法时遇到问题,该方法将读取所有内容,wed例如,、wed等等。然后我不必手动输入它们。感谢您的帮助!wed1.43654wed.46

编辑 像这样的东西

0 投票
2 回答
48 浏览

r - 将长数据除以R中另一个数据集中的值

我有一个长数据格式的数据集:

日期还有很多,但这应该让您对格式有所了解。

然后我有第二个数据集,其中包含有关这些地区人口的更多信息:

我想要做的是将第一个数据集中的一列除以每个地区的人口值,跨越所有日期。例如,如果“x”是GDP我想除以GDP每个不同时间点的总体值。对于RegionA这将是2/20002/2000对于每个01-01-202002-01-2020

我对 R 很陌生,任何帮助开始解决这个问题都会很棒。

这里有一个可重现的例子

对于另一个数据框:

现在:我尝试了各种组合

这显然是错误的。

谢谢你。

0 投票
1 回答
42 浏览

r - 使用 id 变量重复的分组重塑 data.frame

我想重塑/重新排列一个数据集,该数据集存储为具有 2 列的 data.frame:

  • id(非唯一,即可以重复多行)--> 存储为字符
  • 值 --> 存储为数值(范围 1:3)

样本数据:

这给了我以下输出:

我想要的是:

想要的输出:

我的原始数据集有 >1000 个变量“id”和 >50 个变量“value”。我想对数据集进行分块/切片,得到一个新的 data.frame,其中每个“id”变量将代表一列,列出其“值”变量内容。

可以通过循环解决它,但我想要矢量化解决方案。如果可能的话,将基础 R 作为“单线”,但也可以使用其他解决方案。

0 投票
2 回答
45 浏览

python-3.x - 将字符串拆分为名字和姓氏的最简单方法是什么?

数据集有 14k 行,有很多标题等。

我是 Pandas 和 Python 的初学者,我想知道如何从这个数据集中获取名字和姓氏的输出。

数据集:

0 Pr.Doz.Dr. Klaus Semmler Facharzt für Frauenhe...

1 大学博士。(布达佩斯) Dalia Lax

2 医学博士。约万·斯托吉尔科维奇

3 医学博士。德克施耐德

4 马克·舒尔曼

14083 袋 Kinderarztpraxis

14084 乌尔里希·布罗米格先生

14085 孙海因里希

14086 Herr Dr. sc. 医学。艾玛迪斯·哈特维希

14087 茉莉花梨

0 投票
2 回答
95 浏览

python - 检查单词是否在一个系列中,然后从字符串中删除它

我是 Pandas 的初学者,我想知道如何为我想执行的以下逻辑操作编写代码。

有人可以让我知道他们会怎么做吗?

如果单词在熊猫系列中,则从 DataFrame 中的字符串中删除该单词。

让“A”系列成为熊猫系列,如下所示:


让 DataFrame "B" 成为我们想要修改的 DataFrame。


期望的输出:

0 投票
2 回答
80 浏览

r - R tidyverse:根据索引列创建组

我有这个小标题

我想创建索引列中的值是连续值的组。最终目标是计算每组的总和。

这是预期的小标题,类似于:

预先感谢您的建议。

0 投票
1 回答
42 浏览

python - 使用列表与字典的数据框

上面的代码给了我以下(正确的)数据框。

但是,当我使用这个语句时,

然后我得到以下(不正确的)输出。

如您所见,这两个数据框是不同的。为什么会这样?这本字典与列表方法有什么不同?