问题标签 [data-wrangling]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

709 问题

0 投票

4 回答

75 浏览

python - 将最后一行的值添加到此行

我想在按名称分组时获取最后一行的值。例如，第 2 行中名字 Walter 的最后一次迭代，我想在 Col1 中获取 Dog + "、" + Cat 和 Beer + "、" + Wine 在 Col3 中。有很多列，所以我想根据索引/列位置而不是列名来制作它。

这是我想要的输出：

这是我尝试过的（但不起作用）：

我读到使用 for 循环遍历 pandas 中的行是不受欢迎的，所以我想通过使用矢量化或应用（或其他一些有效的方式）来获得输出。

2020-05-09T17:52:59.687

0 投票

1 回答

43 浏览

r - 我怎样才能让两张桌子互相填充NA？

我遇到了两个数据框的一个小问题。基本上，两者都包含值和 NA，并且具有完全相同的格式（列、名称等），每个表都是 292 行长。

一个中的 NA 对应于另一个中的值，反之亦然，例如，顶部表格中的前三行是底部表格中的 NA，而底部表格中的第 4 行和第 5 行是顶部表格中的 NA。

我正在寻找一种合并这两个表的方法，以最小化 NA 的数量，即从顶部表中获取第 1、2 和 3 行，从底部表中获取第 4 行，依此类推。（我知道第 2 行在两者中都是 NA；最终结果仍然会有 NA，只是少了很多）。有人可以帮帮我吗？

PS 我已经尝试了我从基础 R 和 dplyr 包中知道的所有加入和/或合并功能。

提前致谢。

r dplyr data-wrangling

2020-05-11T11:06:14.750

0 投票

2 回答

131 浏览

r - 格式化 R 中表的分组数据

我正在尝试以表格格式显示我的数据，但我不知道如何重新排列我的数据以以正确的格式显示它。我习惯于为绘图争吵数据，但在准备表格时我发现自己有点迷茫。这似乎是非常基本的事情，但我无法在这里找到关于我做错了什么的解释。

我有 3 列数据，Type、Year和n。现在格式化的数据会生成一个如下所示的表：

我想要做的是Type作为行名，Year作为列名，并n像这样填充表格内容：

从这一点开始，错误可能已经在上游发生。使用完整的原始数据集，我通过执行以下操作得到了这个输出：

这是dput()输出

r group-by datatable data-wrangling

2020-05-13T06:25:23.753

0 投票

3 回答

45 浏览

r - 自动合并列，合并值在容器中用分隔符分隔

我有一个大数据框，其中有很多列的列.名。这是我在以下示例中的方法：

产生一个逗号分隔的列Combined1, Combined2, Combined3:

我的问题是，大约有 20-30 列mon，tue并且我在创建一个方法时遇到问题，该方法将读取所有内容，wed例如，、wed等等。然后我不必手动输入它们。感谢您的帮助！wed1.43654wed.46

编辑像这样的东西

r dataframe data-cleaning data-wrangling

2020-05-13T20:06:56.690

0 投票

2 回答

48 浏览

r - 将长数据除以R中另一个数据集中的值

我有一个长数据格式的数据集：

日期还有很多，但这应该让您对格式有所了解。

然后我有第二个数据集，其中包含有关这些地区人口的更多信息：

我想要做的是将第一个数据集中的一列除以每个地区的人口值，跨越所有日期。例如，如果“x”是GDP我想除以GDP每个不同时间点的总体值。对于RegionA这将是2/2000和2/2000对于每个01-01-2020和02-01-2020。

我对 R 很陌生，任何帮助开始解决这个问题都会很棒。

这里有一个可重现的例子

对于另一个数据框：

现在：我尝试了各种组合

这显然是错误的。

谢谢你。

r data-wrangling

2020-05-14T13:44:53.597

0 投票

1 回答

42 浏览

r - 使用 id 变量重复的分组重塑 data.frame

我想重塑/重新排列一个数据集，该数据集存储为具有 2 列的 data.frame：

id（非唯一，即可以重复多行）--> 存储为字符
值 --> 存储为数值（范围 1:3）

样本数据：

这给了我以下输出：

我想要的是：

想要的输出：

我的原始数据集有 >1000 个变量“id”和 >50 个变量“value”。我想对数据集进行分块/切片，得到一个新的 data.frame，其中每个“id”变量将代表一列，列出其“值”变量内容。

可以通过循环解决它，但我想要矢量化解决方案。如果可能的话，将基础 R 作为“单线”，但也可以使用其他解决方案。

r group-by reshape transpose data-wrangling

2020-05-18T10:49:58.980

0 投票

2 回答

45 浏览

python-3.x - 将字符串拆分为名字和姓氏的最简单方法是什么？

数据集有 14k 行，有很多标题等。

我是 Pandas 和 Python 的初学者，我想知道如何从这个数据集中获取名字和姓氏的输出。

数据集：

0 Pr.Doz.Dr. Klaus Semmler Facharzt für Frauenhe...

1 大学博士。(布达佩斯) Dalia Lax

2 医学博士。约万·斯托吉尔科维奇

3 医学博士。德克施耐德

4 马克·舒尔曼

14083 袋 Kinderarztpraxis

14084 乌尔里希·布罗米格先生

14085 孙海因里希

14086 Herr Dr. sc. 医学。艾玛迪斯·哈特维希

14087 茉莉花梨

python-3.x pandas jupyter-notebook data-munging data-wrangling

2020-05-19T13:47:33.940

0 投票

2 回答

95 浏览

python - 检查单词是否在一个系列中，然后从字符串中删除它

我是 Pandas 的初学者，我想知道如何为我想执行的以下逻辑操作编写代码。

有人可以让我知道他们会怎么做吗？

如果单词在熊猫系列中，则从 DataFrame 中的字符串中删除该单词。

让“A”系列成为熊猫系列，如下所示：

让 DataFrame "B" 成为我们想要修改的 DataFrame。

期望的输出：

python pandas jupyter-notebook data-munging data-wrangling

2020-05-19T17:04:11.240

0 投票

2 回答

80 浏览

r - R tidyverse：根据索引列创建组

我有这个小标题

我想创建索引列中的值是连续值的组。最终目标是计算每组的总和。

这是预期的小标题，类似于：

预先感谢您的建议。

r tidyverse data-wrangling

2020-05-21T14:17:51.030

0 投票

1 回答

42 浏览

python - 使用列表与字典的数据框

上面的代码给了我以下（正确的）数据框。

但是，当我使用这个语句时，

然后我得到以下（不正确的）输出。

如您所见，这两个数据框是不同的。为什么会这样？这本字典与列表方法有什么不同？

python pandas data-wrangling

2020-05-21T21:42:33.320

1 2 3 4 5 6 7 8 9 10

问题标签 [data-wrangling]

Reference