问题标签 [data-wrangling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 比较 Big Query 中 A 列具有不同值而 B 列具有相同值的两个连续行中的时间戳
伙计们,我有一个很大的查询结果,它显示了local_time
骑手(在列中rider_id
)退出应用程序(列)的时间(在列中event
),因此列有两个不同的值event
,“authentication_complete”和“logout ”。
我想要实现的是每个曾经注销的骑手,在一个列中我想获得他们注销的时间,在另一列中我想获得在该注销事件之后发生的事件“authentication_complete”的时间为那个骑手。通过这种方式,我可以看到每个骑手离开应用程序的时间段。我想得到的查询结果如下所示。
这是一个非常不干净的数据集,到目前为止我能够清理这么多,但是在这一步,我感觉很卡。我正在研究类似的函数,lag()
但是由于数据是 180,000 行,对于一个 Rider_id,可以有多个名为“logout”的事件,并且对于同一个 Rider_id,有多个名为“authentication_complete”的连续事件,这更加令人困惑。我真的很感激任何帮助。谢谢!
r - 将时间变量转换为R中的因子
我正在研究一个以 hhmmss 格式报告交易时间的交易数据集。例如,204629、215450 等。
我想从给定的列中导出一个因子变量,其水平表示一天中的某些时间,例如 12-3 pm、3-6 pm 等。
我可以考虑使用 str_sub 函数来选择小时来自给定变量的值并将它们转换为因子。但是有没有更有效的方法来实现这一点?
r - 展平数据框,将列的值组合到列表中以填充单个单元格
我在 r 中有以下数据框:
我想做的是将这些值组合成一个列表,我可以将其放入一个单独的单元格中,以颜色为中心。也就是说,我想要一个看起来像这样的表:
我用 for 循环解决了这个问题取得了一些成功,但我发现执行它需要相当长的时间。tidyverse 中是否有更快捷的数据整理功能可以执行这种转换?我认为 purrr 包可能包含答案,但导航有困难。
谢谢!
r - 数据整理:如何将两个宽格式数据集合并为一个
我有两个宽格式数据集。两者共享一个公共索引列,我想将两个数据集组合成一个基于该公共列的宽格式数据集。下面提供了数据集的示例。
设数据集 A 为:
其中第 1 列是文档列表,宽列是在这些文档中找到的主题(如果文档提到主题,则为 1,否则为 0)
并且让数据集 B 为:
其中第 1 列与数据集 A 中的列表相同,其他列是国家/地区。值是该文档对该特定国家的“重要程度”的自定义代码(例如,5 非常重要,1 不重要,0 表示不参与文档)。
我想将两者组合成一个单一的宽数据集,其中行是国家,列是主题。单元格内的值将等于一个国家通过文档参与主题的情况总和,由数据集 B 上的“重要性”编码加权。
完成的数据集如下所示:
例如,AFG 仅参与了文件 A/C.3/64/L.6,重要性为 5,由于该文件仅提及“获取信息”,AFG 对该主题的参与度为 5。反过来,参与在所有文件中,因此获得了与主题“绑架”(1*5=5)、“堕胎”(1*1=1)、“学历”(1*1 + 1*2=3)和“访问信息”(1*4=4)。
问题是完整的数据集 A 和 B 分别有超过 1k 个主题和 190 个国家。所以我需要找到一种自动化的方式来进行这种合并。我将不胜感激有关如何在 Excel 或 R 上执行此操作的建议。
非常感谢
python - 使用 Pandas 在 Python 中读取多个 pandas 数据帧并分配数据帧名称的优雅方式
请原谅我的问题,我知道这是微不足道的,但由于某些原因,我没有做对。一本一本地阅读dataframes
效率非常低,尤其是当你有很多人dataframes
想阅读的时候。记住DRY - DO NOT REPEAT YOURSELF
所以这是我的方法:
这只是让我df
成为其中之一frames
,我不确定其中哪一个,但我猜是最后一个。如何read
通过csv
文件并将它们与数据框名称一起存储在DataFrameName
我的目标:
dataframes
在工作空间中加载6 个DataFrameName
例如company_df
保存来自的数据"company.csv"
r - 将数据从 1,1,1 重新编码到 1,2,3
所以我有这个数据框。在列potential_child下,我想重新编码这些值,以便最老的孩子 == 1、第二大的孩子 == 2、第三大的孩子 == 3 等等。我有孩子们的年龄,但我正在苦苦挣扎怎么做这正是。
我试图仔细考虑(为这种丑陋的漫无目的提前道歉):
r - 将行移动到相同的高度?
[ 上图显示了我的 df 的前 20 行。
目标是将 b3_01 - b3_10 行移动到与 v011 列中具有数字的行相同的高度。例如,caseid #4 是妈妈,case id #5 和 6 是她的孩子。我希望两个 1297 都在 973 旁边。
我难住了!
到目前为止,我试图提高 b3_01-b3_10 的值,因为它们之间的距离并不总是相同的(例如 b3_01 并不总是低于 v011 的 1)。
r - 在 R 中处理数据
我试图将这些数据(特别是提取毕业率)分解成有用的方式进行分析。我相信我需要 str_split (使用 R),但不了解它是什么类型的数据以及所有 \ 的含义 / 等等。我使用 rvest 包和以下代码从网站上抓取了这个:
谢谢你的帮助!
r - 如何使列中的值成为具有相应值的单独列?
所以我有以下数据集模式。
类型 | 季度 | 收入
如何将 Quarter 列转换为不同的列名(例如 Q2、Q3)并附加相应的收入值?我希望它看起来像下面这样
类型 | Q2 版本 | Q3 版本
谢谢!