“data-wrangling”的相关标签问题

0 投票

1 回答

86 浏览

sql - 比较 Big Query 中 A 列具有不同值而 B 列具有相同值的两个连续行中的时间戳

伙计们，我有一个很大的查询结果，它显示了local_time骑手（在列中rider_id）退出应用程序（列）的时间（在列中event），因此列有两个不同的值event，“authentication_complete”和“logout ”。

我想要实现的是每个曾经注销的骑手，在一个列中我想获得他们注销的时间，在另一列中我想获得在该注销事件之后发生的事件“authentication_complete”的时间为那个骑手。通过这种方式，我可以看到每个骑手离开应用程序的时间段。我想得到的查询结果如下所示。

这是一个非常不干净的数据集，到目前为止我能够清理这么多，但是在这一步，我感觉很卡。我正在研究类似的函数，lag()但是由于数据是 180,000 行，对于一个 Rider_id，可以有多个名为“logout”的事件，并且对于同一个 Rider_id，有多个名为“authentication_complete”的连续事件，这更加令人困惑。我真的很感激任何帮助。谢谢！

2020-03-31T21:46:38.943

0 投票

1 回答

33 浏览

r - 将时间变量转换为R中的因子

我正在研究一个以 hhmmss 格式报告交易时间的交易数据集。例如，204629、215450 等。
我想从给定的列中导出一个因子变量，其水平表示一天中的某些时间，例如 12-3 pm、3-6 pm 等。
我可以考虑使用 str_sub 函数来选择小时来自给定变量的值并将它们转换为因子。但是有没有更有效的方法来实现这一点？

r data-wrangling

2020-04-02T19:59:49.563

0 投票

2 回答

63 浏览

r - 展平数据框，将列的值组合到列表中以填充单个单元格

我在 r 中有以下数据框：

我想做的是将这些值组合成一个列表，我可以将其放入一个单独的单元格中，以颜色为中心。也就是说，我想要一个看起来像这样的表：

我用 for 循环解决了这个问题取得了一些成功，但我发现执行它需要相当长的时间。tidyverse 中是否有更快捷的数据整理功能可以执行这种转换？我认为 purrr 包可能包含答案，但导航有困难。

谢谢！

r dataframe purrr data-wrangling

2020-04-03T23:34:09.797

0 投票

3 回答

175 浏览

r - 数据整理：如何将两个宽格式数据集合并为一个

我有两个宽格式数据集。两者共享一个公共索引列，我想将两个数据集组合成一个基于该公共列的宽格式数据集。下面提供了数据集的示例。

设数据集 A 为：

其中第 1 列是文档列表，宽列是在这些文档中找到的主题（如果文档提到主题，则为 1，否则为 0）

并且让数据集 B 为：

其中第 1 列与数据集 A 中的列表相同，其他列是国家/地区。值是该文档对该特定国家的“重要程度”的自定义代码（例如，5 非常重要，1 不重要，0 表示不参与文档）。

我想将两者组合成一个单一的宽数据集，其中行是国家，列是主题。单元格内的值将等于一个国家通过文档参与主题的情况总和，由数据集 B 上的“重要性”编码加权。

完成的数据集如下所示：

例如，AFG 仅参与了文件 A/C.3/64/L.6，重要性为 5，由于该文件仅提及“获取信息”，AFG 对该主题的参与度为 5。反过来，参与在所有文件中，因此获得了与主题“绑架”（1*5=5）、“堕胎”（1*1=1）、“学历”（1*1 + 1*2=3）和“访问信息”（1*4=4）。

问题是完整的数据集 A 和 B 分别有超过 1k 个主题和 190 个国家。所以我需要找到一种自动化的方式来进行这种合并。我将不胜感激有关如何在 Excel 或 R 上执行此操作的建议。

非常感谢