“data-wrangling”的相关标签问题

0 投票

2 回答

593 浏览

r - 基于 r 中的行值的条件 if 语句

我是 R 新手，非常感谢您在这方面的帮助。

我有一个数据框，有 2 个级别是 11 个变量的“Y”和“N”指标。

我想要一个新列，当行值等于“Y”时连接列名

IE

r dplyr data-wrangling

2020-02-03T12:47:15.600

0 投票

1 回答

33 浏览

r - grep 在 R 中的多个模式上给出无法解释的结果

我正在尝试识别与 ExecKeywords 中找到的多种模式之一匹配的标题。在 ExecKeywords 的每个元素之后、管道之前和管道之后（折叠中）放置一个空格似乎都做了一些不同的事情，但不是我想要的。所有帖子都引用了粘贴和折叠方法，但这似乎对我不起作用……我错过了什么吗？ignore.case 似乎也没有按预期工作

应该期待这样的回报

'CIO','Director of Information Technology and Chief Information Security Officer','Chief Technology Officer','COO / CTO Advice Company','CTO'

r analysis data-wrangling

2020-02-05T03:17:18.660

0 投票

1 回答

86 浏览

我非常感谢您在使用 R 进行数据处理方面的帮助。我有一个数据，我想在适用时将一列（变量）分成两列，以其他变量为条件。例如，根据下面的示例，数据表示出现在不同阅读时间（块）中的某些单词（项目）的反应时间测量值（RT1 和 RT2）。我想查看块 3、4 和 5 中的 RT1 和 RT2 值是否与块 1 中同一项目的 RT1 和 RT2 值相关。块 1 中出现并在后续块中重新出现的目标项目编码为'条件'列中的'EI'，而编码为'E'或'I'的项目只出现一次。

数据样本如下所示：

为了以 R 可以理解的格式呈现，我想要实现的目标数据框将类似于下面的数据框（应添加突出显示的列）。这些列中的空白行代表不重复出现的项目（条件未编码为“EI”）；因此，它们无关紧要，应编码为“NA”。

目标数据格式示例如下所示：

提前感谢您的帮助。

r dplyr tidyverse data-wrangling

2020-02-09T18:00:27.830

0 投票

1 回答

351 浏览

azure-data-factory - Azure 数据工厂：数据集动态数据库表名称未在数据整理流中解析

我创建了一个指向我数据库中的表的数据集。表名设置为动态内容：@concat(dataset().db_prefix, '_Baseline_CIs'). 这在通过“预览数据”检入数据集时有效。显示表格内容。

但是：在 Data Warngling Flow 中使用数据集时，M-query 失败并出现以下错误：

如您所见，表名连接已返回“未定义”。这是一个错误吗？

BR，丹尼斯

azure-data-factory dataflow data-wrangling

2020-02-11T08:40:47.310

0 投票

1 回答

260 浏览

r - 使用 R 进行近似字符匹配

我有两个数据文件。其中一个文件仅包含一列带有公司名称（通常是医院）的列，而另一个包含具有相应地址的公司列表。问题是公司名称不完全匹配。我怎样才能大致匹配它们？

我想获得一个company与地址匹配的数据文件，如果在adress

r dplyr character data-wrangling

2020-02-14T13:05:57.907

0 投票

2 回答

35 浏览

r - 如何将唯一行值更改为 R 中数据框中的另一组唯一行值？

我有一个数据框，其中包含来自在线参加我测试的参与者的实验结果。在数据文件中，每个唯一的参与者都由实验结束时随机生成的代码标识。由于通过看起来像乱码的随机代码来识别每个人很麻烦，我想用 Participant_1、Participant_2 等可读标签替换这些代码。

所以我想我需要一段代码来识别数据文件中每个唯一的随机代码，并将它们一个一个替换为参与者标签。但我无法弄清楚，任何帮助将不胜感激。

这是一段代码，显示了我的输出与我想要的输出。请注意，每个参与者都回答了不同数量的问题，因此这不能用作解析它们的简单方法。

r dataframe row data-wrangling

2020-02-18T02:44:56.400

0 投票

1 回答

42 浏览

r - 根据满足R中的多列条件删除行

我有一个非常大的数据集，我想通过删除我选择的列满足这些列选择中的所有条目都等于 0 的条件的行来清理。这是我目前拥有的：

如何执行此操作，以便删除每第 n 列满足此条件的所有行条目？

另外，如果我想迭代这个条件，我需要说明列的名称吗？

这是一个示例数据集：

我想删除 F、G 和 H 列等于 0 的所有行，我的结果将是：

r dataframe data-wrangling

2020-02-26T21:57:41.520

0 投票

2 回答

39 浏览

python - 将分类列转换为python中的列

我正在尝试以秒为单位计算汽车不可用的时间段。我有下表：

为了解决这个问题，我想将最后一个二进制列（isAvaliable）分为isAvaliable_0和isAvaliable_1，我将从statusDateTime列中写入时间。结果应该有下表：

在 python 的 pandas 中是否有一些优雅的方法可以做到这一点？谢谢！

python algorithm data-wrangling

2020-02-27T05:10:46.073

0 投票

2 回答

65 浏览

r - 如何整理列是虚拟变量而单元格值是观察名称的数据集？

我有一个非常混乱的数据集，其中每一列（正确）对应于感兴趣的变量。

数据集本质上计算了个人。例如，Var1 应该是 Var1 为真的人员列表。想象一下变量是冰淇淋的味道。Var1 是巧克力冰淇淋。记录数据的方式是这样的，而不是指示（1/0 或 T/F）某人是否喜欢巧克力冰淇淋，数据集只包含喜欢巧克力冰淇淋的人的名字。

这种列表样式的数据集使得分析数据变得困难，因为行不对应于单个观察值。现在，每一列只包含一个名称列表。例如，Var1 可能是喜欢巧克力冰淇淋的人的名字列表（不是 R 意义上的，而是现实世界意义上的）。

为了使该数据集易于分析，我想使用这些信息使数据集中的每一行对应于一个观察值，并且每个单元格值对应于给定变量的观察值是否为 T/F。

现在，数据集看起来像这样：

或就冰淇淋口味而言：

所以芭芭拉喜欢巧克力和草莓冰淇淋，但是数据集很混乱，珊珊的名字和芭芭拉的名字在同一行。不应该是这样的。第一行应该代表 Barbara 的值，单元格值应该是 1/0 或 T/F，表示 Barbara 是否喜欢特定口味的冰淇淋。

简而言之，我希望它看起来如下

r tidyr data-wrangling

2020-02-27T06:17:56.333

0 投票

2 回答

47 浏览

r - 使用 tidyverse 在 R 中进行数据整理？

所以我有这个数据集主要的转换是旋转表格，所以人口名称在第一列，名称是每列的标题（并且它们被重命名，因此叶绿素被重命名为 CHLa）。表格被旋转和重命名后的另一个变化是，每一行都被复制到指定的数量，所以在预览中如果你注意到，AK 被复制了 8 次，NU 被复制了两次，依此类推。谁能帮我完成这个？谢谢！

r dataframe data-wrangling wrangle

2020-02-27T16:49:52.137

问题标签 [data-wrangling]

r - 基于 r 中的行值的条件 if 语句

r - grep 在 R 中的多个模式上给出无法解释的结果

r - 使用 R 的数据整理将一列拆分为两列

azure-data-factory - Azure 数据工厂：数据集动态数据库表名称未在数据整理流中解析

r - 使用 R 进行近似字符匹配

r - 如何将唯一行值更改为 R 中数据框中的另一组唯一行值？

r - 根据满足R中的多列条件删除行

python - 将分类列转换为python中的列

r - 如何整理列是虚拟变量而单元格值是观察名称的数据集？

r - 使用 tidyverse 在 R 中进行数据整理？

问题标签 [data-wrangling]

Reference