问题标签 [data-wrangling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
593 浏览

r - 基于 r 中的行值的条件 if 语句

我是 R 新手,非常感谢您在这方面的帮助。

我有一个数据框,有 2 个级别是 11 个变量的“Y”和“N”指标。在此处输入图像描述

我想要一个新列,当行值等于“Y”时连接列名

IE 在此处输入图像描述

0 投票
1 回答
33 浏览

r - grep 在 R 中的多个模式上给出无法解释的结果

我正在尝试识别与 ExecKeywords 中找到的多种模式之一匹配的标题。在 ExecKeywords 的每个元素之后、管道之前和管道之后(折叠中)放置一个空格似乎都做了一些不同的事情,但不是我想要的。所有帖子都引用了粘贴和折叠方法,但这似乎对我不起作用……我错过了什么吗?ignore.case 似乎也没有按预期工作

应该期待这样的回报

'CIO','Director of Information Technology and Chief Information Security Officer','Chief Technology Officer','COO / CTO Advice Company','CTO'

0 投票
1 回答
86 浏览

r - 使用 R 的数据整理将一列拆分为两列

我非常感谢您在使用 R 进行数据处理方面的帮助。我有一个数据,我想在适用时将一列(变量)分成两列,以其他变量为条件。例如,根据下面的示例,数据表示出现在不同阅读时间(块)中的某些单词(项目)的反应时间测量值(RT1 和 RT2)。我想查看块 3、4 和 5 中的 RT1 和 RT2 值是否与块 1 中同一项目的 RT1 和 RT2 值相关。块 1 中出现并在后续块中重新出现的目标项目编码为'条件'列中的'EI',而编码为'E'或'I'的项目只出现一次。

数据样本如下所示:

为了以 R 可以理解的格式呈现,我想要实现的目标数据框将类似于下面的数据框(应添加突出显示的列)。这些列中的空白行代表不重复出现的项目(条件未编码为“EI”);因此,它们无关紧要,应编码为“NA”。

目标数据格式示例如下所示:

提前感谢您的帮助。

0 投票
1 回答
351 浏览

azure-data-factory - Azure 数据工厂:数据集动态数据库表名称未在数据整理流中解析

我创建了一个指向我数据库中的表的数据集。表名设置为动态内容:@concat(dataset().db_prefix, '_Baseline_CIs'). 这在通过“预览数据”检入数据集时有效。显示表格内容。

但是:在 Data Warngling Flow 中使用数据集时,M-query 失败并出现以下错误:

如您所见,表名连接已返回“未定义”。这是一个错误吗?

BR,丹尼斯

0 投票
1 回答
260 浏览

r - 使用 R 进行近似字符匹配

我有两个数据文件。其中一个文件仅包含一列带有公司名称(通常是医院)的列,而另一个包含具有相应地址的公司列表。问题是公司名称不完全匹配。我怎样才能大致匹配它们?

我想获得一个company与地址匹配的数据文件,如果在adress

0 投票
2 回答
35 浏览

r - 如何将唯一行值更改为 R 中数据框中的另一组唯一行值?

我有一个数据框,其中包含来自在线参加我测试的参与者的实验结果。在数据文件中,每个唯一的参与者都由实验结束时随机生成的代码标识。由于通过看起来像乱码的随机代码来识别每个人很麻烦,我想用 Participant_1、Participant_2 等可读标签替换这些代码。

所以我想我需要一段代码来识别数据文件中每个唯一的随机代码,并将它们一个一个替换为参与者标签。但我无法弄清楚,任何帮助将不胜感激。

这是一段代码,显示了我的输出与我想要的输出。请注意,每个参与者都回答了不同数量的问题,因此这不能用作解析它们的简单方法。

0 投票
1 回答
42 浏览

r - 根据满足R中的多列条件删除行

我有一个非常大的数据集,我想通过删除我选择的列满足这些列选择中的所有条目都等于 0 的条件的行来清理。这是我目前拥有的:

如何执行此操作,以便删除每第 n 列满足此条件的所有行条目?

另外,如果我想迭代这个条件,我需要说明列的名称吗?

这是一个示例数据集:

我想删除 F、G 和 H 列等于 0 的所有行,我的结果将是:

0 投票
2 回答
39 浏览

python - 将分类列转换为python中的列

我正在尝试以秒为单位计算汽车不可用的时间段。我有下表:

为了解决这个问题,我想将最后一个二进制列(isAvaliable)分为isAvaliable_0isAvaliable_1,我将从statusDateTime列中写入时间。结果应该有下表:

在 python 的 pandas 中是否有一些优雅的方法可以做到这一点?谢谢!

0 投票
2 回答
65 浏览

r - 如何整理列是虚拟变量而单元格值是观察名称的数据集?

我有一个非常混乱的数据集,其中每一列(正确)对应于感兴趣的变量。

数据集本质上计算了个人。例如,Var1 应该是 Var1 为真的人员列表。想象一下变量是冰淇淋的味道。Var1 是巧克力冰淇淋。记录数据的方式是这样的,而不是指示(1/0 或 T/F)某人是否喜欢巧克力冰淇淋,数据集只包含喜欢巧克力冰淇淋的人的名字。

这种列表样式的数据集使得分析数据变得困难,因为行不对应于单个观察值。现在,每一列只包含一个名称列表。例如,Var1 可能是喜欢巧克力冰淇淋的人的名字列表(不是 R 意义上的,而是现实世界意义上的)。

为了使该数据集易于分析,我想使用这些信息使数据集中的每一行对应于一个观察值,并且每个单元格值对应于给定变量的观察值是否为 T/F。

现在,数据集看起来像这样:

或就冰淇淋口味而言:

所以芭芭拉喜欢巧克力和草莓冰淇淋,但是数据集很混乱,珊珊的名字和芭芭拉的名字在同一行。不应该是这样的。第一行应该代表 Barbara 的值,单元格值应该是 1/0 或 T/F,表示 Barbara 是否喜欢特定口味的冰淇淋。

简而言之,我希望它看起来如下

0 投票
2 回答
47 浏览

r - 使用 tidyverse 在 R 中进行数据整理?

所以我有这个数据集主要的转换是旋转表格,所以人口名称在第一列,名称是每列的标题(并且它们被重命名,因此叶绿素被重命名为 CHLa)。表格被旋转和重命名后的另一个变化是,每一行都被复制到指定的数量,所以在预览中如果你注意到,AK 被复制了 8 次,NU 被复制了两次,依此类推。谁能帮我完成这个?谢谢!