问题标签 [data-wrangling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - grep 在 R 中的多个模式上给出无法解释的结果
我正在尝试识别与 ExecKeywords 中找到的多种模式之一匹配的标题。在 ExecKeywords 的每个元素之后、管道之前和管道之后(折叠中)放置一个空格似乎都做了一些不同的事情,但不是我想要的。所有帖子都引用了粘贴和折叠方法,但这似乎对我不起作用……我错过了什么吗?ignore.case 似乎也没有按预期工作
应该期待这样的回报
'CIO','Director of Information Technology and Chief Information Security Officer','Chief Technology Officer','COO / CTO Advice Company','CTO'
r - 使用 R 的数据整理将一列拆分为两列
我非常感谢您在使用 R 进行数据处理方面的帮助。我有一个数据,我想在适用时将一列(变量)分成两列,以其他变量为条件。例如,根据下面的示例,数据表示出现在不同阅读时间(块)中的某些单词(项目)的反应时间测量值(RT1 和 RT2)。我想查看块 3、4 和 5 中的 RT1 和 RT2 值是否与块 1 中同一项目的 RT1 和 RT2 值相关。块 1 中出现并在后续块中重新出现的目标项目编码为'条件'列中的'EI',而编码为'E'或'I'的项目只出现一次。
数据样本如下所示:
为了以 R 可以理解的格式呈现,我想要实现的目标数据框将类似于下面的数据框(应添加突出显示的列)。这些列中的空白行代表不重复出现的项目(条件未编码为“EI”);因此,它们无关紧要,应编码为“NA”。
目标数据格式示例如下所示:
提前感谢您的帮助。
azure-data-factory - Azure 数据工厂:数据集动态数据库表名称未在数据整理流中解析
我创建了一个指向我数据库中的表的数据集。表名设置为动态内容:@concat(dataset().db_prefix, '_Baseline_CIs')
. 这在通过“预览数据”检入数据集时有效。显示表格内容。
但是:在 Data Warngling Flow 中使用数据集时,M-query 失败并出现以下错误:
如您所见,表名连接已返回“未定义”。这是一个错误吗?
BR,丹尼斯
r - 使用 R 进行近似字符匹配
我有两个数据文件。其中一个文件仅包含一列带有公司名称(通常是医院)的列,而另一个包含具有相应地址的公司列表。问题是公司名称不完全匹配。我怎样才能大致匹配它们?
我想获得一个company
与地址匹配的数据文件,如果在adress
r - 如何将唯一行值更改为 R 中数据框中的另一组唯一行值?
我有一个数据框,其中包含来自在线参加我测试的参与者的实验结果。在数据文件中,每个唯一的参与者都由实验结束时随机生成的代码标识。由于通过看起来像乱码的随机代码来识别每个人很麻烦,我想用 Participant_1、Participant_2 等可读标签替换这些代码。
所以我想我需要一段代码来识别数据文件中每个唯一的随机代码,并将它们一个一个替换为参与者标签。但我无法弄清楚,任何帮助将不胜感激。
这是一段代码,显示了我的输出与我想要的输出。请注意,每个参与者都回答了不同数量的问题,因此这不能用作解析它们的简单方法。
r - 根据满足R中的多列条件删除行
我有一个非常大的数据集,我想通过删除我选择的列满足这些列选择中的所有条目都等于 0 的条件的行来清理。这是我目前拥有的:
如何执行此操作,以便删除每第 n 列满足此条件的所有行条目?
另外,如果我想迭代这个条件,我需要说明列的名称吗?
这是一个示例数据集:
我想删除 F、G 和 H 列等于 0 的所有行,我的结果将是:
python - 将分类列转换为python中的列
我正在尝试以秒为单位计算汽车不可用的时间段。我有下表:
为了解决这个问题,我想将最后一个二进制列(isAvaliable)分为isAvaliable_0和isAvaliable_1,我将从statusDateTime列中写入时间。结果应该有下表:
在 python 的 pandas 中是否有一些优雅的方法可以做到这一点?谢谢!
r - 如何整理列是虚拟变量而单元格值是观察名称的数据集?
我有一个非常混乱的数据集,其中每一列(正确)对应于感兴趣的变量。
数据集本质上计算了个人。例如,Var1 应该是 Var1 为真的人员列表。想象一下变量是冰淇淋的味道。Var1 是巧克力冰淇淋。记录数据的方式是这样的,而不是指示(1/0 或 T/F)某人是否喜欢巧克力冰淇淋,数据集只包含喜欢巧克力冰淇淋的人的名字。
这种列表样式的数据集使得分析数据变得困难,因为行不对应于单个观察值。现在,每一列只包含一个名称列表。例如,Var1 可能是喜欢巧克力冰淇淋的人的名字列表(不是 R 意义上的,而是现实世界意义上的)。
为了使该数据集易于分析,我想使用这些信息使数据集中的每一行对应于一个观察值,并且每个单元格值对应于给定变量的观察值是否为 T/F。
现在,数据集看起来像这样:
或就冰淇淋口味而言:
所以芭芭拉喜欢巧克力和草莓冰淇淋,但是数据集很混乱,珊珊的名字和芭芭拉的名字在同一行。不应该是这样的。第一行应该代表 Barbara 的值,单元格值应该是 1/0 或 T/F,表示 Barbara 是否喜欢特定口味的冰淇淋。
简而言之,我希望它看起来如下
r - 使用 tidyverse 在 R 中进行数据整理?
所以我有这个数据集主要的转换是旋转表格,所以人口名称在第一列,名称是每列的标题(并且它们被重命名,因此叶绿素被重命名为 CHLa)。表格被旋转和重命名后的另一个变化是,每一行都被复制到指定的数量,所以在预览中如果你注意到,AK 被复制了 8 次,NU 被复制了两次,依此类推。谁能帮我完成这个?谢谢!