问题标签 [data-wrangling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
86 浏览

sql - 比较 Big Query 中 A 列具有不同值而 B 列具有相同值的两个连续行中的时间戳

伙计们,我有一个很大的查询结果,它显示了local_time骑手(在列中rider_id)退出应用程序(列)的时间(在列中event),因此列有两个不同的值event,“authentication_complete”和“logout ”。

我想要实现的是每个曾经注销的骑手,在一个列中我想获得他们注销的时间,在另一列中我想获得在该注销事件之后发生的事件“authentication_complete”的时间为那个骑手。通过这种方式,我可以看到每个骑手离开应用程序的时间段。我想得到的查询结果如下所示。

这是一个非常不干净的数据集,到目前为止我能够清理这么多,但是在这一步,我感觉很卡。我正在研究类似的函数,lag()但是由于数据是 180,000 行,对于一个 Rider_id,可以有多个名为“logout”的事件,并且对于同一个 Rider_id,有多个名为“authentication_complete”的连续事件,这更加令人困惑。我真的很感激任何帮助。谢谢!

0 投票
1 回答
33 浏览

r - 将时间变量转换为R中的因子

我正在研究一个以 hhmmss 格式报告交易时间的交易数据集。例如,204629、215450 等。
我想从给定的列中导出一个因子变量,其水平表示一天中的某些时间,例如 12-3 pm、3-6 pm 等。
我可以考虑使用 str_sub 函数来选择小时来自给定变量的值并将它们转换为因子。但是有没有更有效的方法来实现这一点?

0 投票
2 回答
63 浏览

r - 展平数据框,将列的值组合到列表中以填充单个单元格

我在 r 中有以下数据框:

我想做的是将这些值组合成一个列表,我可以将其放入一个单独的单元格中,以颜色为中心。也就是说,我想要一个看起来像这样的表:

我用 for 循环解决了这个问题取得了一些成功,但我发现执行它需要相当长的时间。tidyverse 中是否有更快捷的数据整理功能可以执行这种转换?我认为 purrr 包可能包含答案,但导航有困难。

谢谢!

0 投票
3 回答
175 浏览

r - 数据整理:如何将两个宽格式数据集合并为一个

我有两个宽格式数据集。两者共享一个公共索引列,我想将两个数据集组合成一个基于该公共列的宽格式数据集。下面提供了数据集的示例。

设数据集 A 为:

在此处输入图像描述

其中第 1 列是文档列表,宽列是在这些文档中找到的主题(如果文档提到主题,则为 1,否则为 0)

并且让数据集 B 为:

在此处输入图像描述

其中第 1 列与数据集 A 中的列表相同,其他列是国家/地区。值是该文档对该特定国家的“重要程度”的自定义代码(例如,5 非常重要,1 不重要,0 表示不参与文档)。

我想将两者组合成一个单一的宽数据集,其中行是国家,列是主题。单元格内的值将等于一个国家通过文档参与主题的情况总和,由数据集 B 上的“重要性”编码加权。

完成的数据集如下所示:

在此处输入图像描述

例如,AFG 仅参与了文件 A/C.3/64/L.6,重要性为 5,由于该文件仅提及“获取信息”,AFG 对该主题的参与度为 5。反过来,参与在所有文件中,因此获得了与主题“绑架”(1*5=5)、“堕胎”(1*1=1)、“学历”(1*1 + 1*2=3)和“访问信息”(1*4=4)。

问题是完整的数据集 A 和 B 分别有超过 1k 个主题和 190 个国家。所以我需要找到一种自动化的方式来进行这种合并。我将不胜感激有关如何在 Excel 或 R 上执行此操作的建议。

非常感谢

0 投票
4 回答
84 浏览

python - 使用 Pandas 在 Python 中读取多个 pandas 数据帧并分配数据帧名称的优雅方式

请原谅我的问题,我知道这是微不足道的,但由于某些原因,我没有做对。一本一本地阅读dataframes效率非常低,尤其是当你有很多人dataframes想阅读的时候。记住DRY - DO NOT REPEAT YOURSELF

所以这是我的方法:

这只是让我df成为其中之一frames,我不确定其中哪一个,但我猜是最后一个。如何read通过csv文件并将它们与数据框名称一起存储在DataFrameName

我的目标:

dataframes在工作空间中加载6 个DataFrameName

例如company_df保存来自的数据"company.csv"

0 投票
1 回答
33 浏览

r - 将数据从 1,1,1 重新编码到 1,2,3

所以我有这个数据框。在列potential_child下,我想重新编码这些值,以便最老的孩子 == 1、第二大的孩子 == 2、第三大的孩子 == 3 等等。我有孩子们的年龄,但我正在苦苦挣扎怎么做这正是。

我试图仔细考虑(为这种丑陋的漫无目的提前道歉):

0 投票
2 回答
49 浏览

r - 将行移动到相同的高度?

[人口出生史数据](人口出生史)[1] 上图显示了我的 df 的前 20 行。

目标是将 b3_01 - b3_10 行移动到与 v011 列中具有数字的行相同的高度。例如,caseid #4 是妈妈,case id #5 和 6 是她的孩子。我希望两个 1297 都在 973 旁边。

我难住了!

到目前为止,我试图提高 b3_01-b3_10 的值,因为它们之间的距离并不总是相同的(例如 b3_01 并不总是低于 v011 的 1)。

0 投票
1 回答
57 浏览

r - 在 R 中处理数据

我试图将这些数据(特别是提取毕业率)分解成有用的方式进行分析。我相信我需要 str_split (使用 R),但不了解它是什么类型的数据以及所有 \ 的含义 / 等等。我使用 rvest 包和以下代码从网站上抓取了这个:

谢谢你的帮助!

0 投票
0 回答
29 浏览

r - 如何使列中的值成为具有相应值的单独列?

所以我有以下数据集模式。

类型 | 季度 | 收入

如何将 Quarter 列转换为不同的列名(例如 Q2、Q3)并附加相应的收入值?我希望它看起来像下面这样

类型 | Q2 版本 | Q3 版本

谢谢!

0 投票
0 回答
72 浏览

r - 如何将值与日期匹配并在 R 中创建新列

我有一个数据集,它在同一列中包含参数、日期和值。我正在寻找一种方法来匹配它们并创建单独的列。我试图让每个不同参数的最终结果如下所示:

在此处输入图像描述 这是示例数据集:

这是我迄今为止尝试过的,但我一直坚持如何走得更远: