问题标签 [data-wrangling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将最后一行的值添加到此行
我想在按名称分组时获取最后一行的值。例如,第 2 行中名字 Walter 的最后一次迭代,我想在 Col1 中获取 Dog + "、" + Cat 和 Beer + "、" + Wine 在 Col3 中。有很多列,所以我想根据索引/列位置而不是列名来制作它。
这是我想要的输出:
这是我尝试过的(但不起作用):
我读到使用 for 循环遍历 pandas 中的行是不受欢迎的,所以我想通过使用矢量化或应用(或其他一些有效的方式)来获得输出。
r - 我怎样才能让两张桌子互相填充NA?
我遇到了两个数据框的一个小问题。基本上,两者都包含值和 NA,并且具有完全相同的格式(列、名称等),每个表都是 292 行长。
一个中的 NA 对应于另一个中的值,反之亦然,例如,顶部表格中的前三行是底部表格中的 NA,而底部表格中的第 4 行和第 5 行是顶部表格中的 NA。
我正在寻找一种合并这两个表的方法,以最小化 NA 的数量,即从顶部表中获取第 1、2 和 3 行,从底部表中获取第 4 行,依此类推。(我知道第 2 行在两者中都是 NA;最终结果仍然会有 NA,只是少了很多)。有人可以帮帮我吗?
PS 我已经尝试了我从基础 R 和 dplyr 包中知道的所有加入和/或合并功能。
提前致谢。
r - 格式化 R 中表的分组数据
我正在尝试以表格格式显示我的数据,但我不知道如何重新排列我的数据以以正确的格式显示它。我习惯于为绘图争吵数据,但在准备表格时我发现自己有点迷茫。这似乎是非常基本的事情,但我无法在这里找到关于我做错了什么的解释。
我有 3 列数据,Type
、Year
和n
。现在格式化的数据会生成一个如下所示的表:
我想要做的是Type
作为行名,Year
作为列名,并n
像这样填充表格内容:
从这一点开始,错误可能已经在上游发生。使用完整的原始数据集,我通过执行以下操作得到了这个输出:
这是dput()
输出
r - 自动合并列,合并值在容器中用分隔符分隔
我有一个大数据框,其中有很多列的列.
名。这是我在以下示例中的方法:
产生一个逗号分隔的列Combined1
, Combined2
, Combined3
:
我的问题是,大约有 20-30 列mon
,tue
并且我在创建一个方法时遇到问题,该方法将读取所有内容,wed
例如,、wed
等等。然后我不必手动输入它们。感谢您的帮助!wed1.43654
wed.46
编辑 像这样的东西
r - 将长数据除以R中另一个数据集中的值
我有一个长数据格式的数据集:
日期还有很多,但这应该让您对格式有所了解。
然后我有第二个数据集,其中包含有关这些地区人口的更多信息:
我想要做的是将第一个数据集中的一列除以每个地区的人口值,跨越所有日期。例如,如果“x”是GDP
我想除以GDP
每个不同时间点的总体值。对于RegionA
这将是2/2000
和2/2000
对于每个01-01-2020
和02-01-2020
。
我对 R 很陌生,任何帮助开始解决这个问题都会很棒。
这里有一个可重现的例子
对于另一个数据框:
现在:我尝试了各种组合
这显然是错误的。
谢谢你。
r - 使用 id 变量重复的分组重塑 data.frame
我想重塑/重新排列一个数据集,该数据集存储为具有 2 列的 data.frame:
- id(非唯一,即可以重复多行)--> 存储为字符
- 值 --> 存储为数值(范围 1:3)
样本数据:
这给了我以下输出:
我想要的是:
想要的输出:
我的原始数据集有 >1000 个变量“id”和 >50 个变量“value”。我想对数据集进行分块/切片,得到一个新的 data.frame,其中每个“id”变量将代表一列,列出其“值”变量内容。
可以通过循环解决它,但我想要矢量化解决方案。如果可能的话,将基础 R 作为“单线”,但也可以使用其他解决方案。
python-3.x - 将字符串拆分为名字和姓氏的最简单方法是什么?
数据集有 14k 行,有很多标题等。
我是 Pandas 和 Python 的初学者,我想知道如何从这个数据集中获取名字和姓氏的输出。
数据集:
0 Pr.Doz.Dr. Klaus Semmler Facharzt für Frauenhe...
1 大学博士。(布达佩斯) Dalia Lax
2 医学博士。约万·斯托吉尔科维奇
3 医学博士。德克施耐德
4 马克·舒尔曼
14083 袋 Kinderarztpraxis
14084 乌尔里希·布罗米格先生
14085 孙海因里希
14086 Herr Dr. sc. 医学。艾玛迪斯·哈特维希
14087 茉莉花梨
python - 检查单词是否在一个系列中,然后从字符串中删除它
我是 Pandas 的初学者,我想知道如何为我想执行的以下逻辑操作编写代码。
有人可以让我知道他们会怎么做吗?
如果单词在熊猫系列中,则从 DataFrame 中的字符串中删除该单词。
让“A”系列成为熊猫系列,如下所示:
让 DataFrame "B" 成为我们想要修改的 DataFrame。
期望的输出:
r - R tidyverse:根据索引列创建组
我有这个小标题
我想创建索引列中的值是连续值的组。最终目标是计算每组的总和。
这是预期的小标题,类似于:
预先感谢您的建议。
python - 使用列表与字典的数据框
上面的代码给了我以下(正确的)数据框。
但是,当我使用这个语句时,
然后我得到以下(不正确的)输出。
如您所见,这两个数据框是不同的。为什么会这样?这本字典与列表方法有什么不同?