问题标签 [data-wrangling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
41 浏览

sql - 如何在 Big Query 中找到其权重(在第 2 列中)在几周内(在第 3 列中)总是增加的不同名称(在第 1 列中)?

我有一个很大的查询结果,它显示了每个人在数周内的体重,我想找到体重在数周内总是增加的人的名字。下面是一个示例数据。

因此,在上述示例数据的情况下,我只想在我的结果中看到 Tom,因为他的体重总是随着日期的增加而增加。在我的原始数据集中,我有 10,000 个名字和超过 10 周的时间,所以用更暴力的方法真的很难做到。我正在考虑在大查询中使用回归函数,但是我必须做尽可能多的回归,因为我有唯一的名称。我真的很感激任何帮助。谢谢!

0 投票
1 回答
22 浏览

r - 如何将行中的数据组合到新列和新数据框中

我有一个数据框,它在同一天有多个具有 TSS 分数的条目。

我想知道如何将 tss 分数合并到一个新列中并放入一个新的数据框中,以便每个运动员只有 1 个条目。

例如

干杯

0 投票
1 回答
41 浏览

python - 将我的数据集分组为 2 个样本时出现 KeyError

我正在参加在线课程。'bikesharing_data' 是 pandas 对象的名称,'workingday' 是该数据框中列的名称。导师想将数据集分成两个样本,并将“工作日”分成 ([0, 1]) 组。这是她写的:

我的问题是如果我将样本划分如下:

它给了我KeyError。我了解 KeyError 是什么,但为什么会引发关键错误?

0 投票
1 回答
50 浏览

r - 如何使用 Lubridate 包和正则表达式而不是使用单独的函数来处理数据?

https://www.kaggle.com/shivamb/netflix-shows-and-movies-exploratory-analysis/data ---- 包含数据集。

这是对 Netflix 数据集中的节目进行的探索性数据分析。数据整理过程有两个主要目标。首先是从 date_added 列中单独获取年份部分。其次是创建一个新列,其中包含持续时间列中特定节目的季节数。我已经依靠包中的separate功能dplyr来实现上述两个目标。

代码如下:-

不想下载数据的可以使用下面包含的数据框代码:

输出与separate()从持续时间列中获取日期和过滤季节数的函数一起使用。

但是,这是否可以通过使用lubridate包获取年份和ifelse()/filter()Regex函数来获取仅获取季节数而不获取电影分钟数以更好和更强大的方式完成?

0 投票
2 回答
96 浏览

python - 根据字典的键创建新列?

我正在尝试在使用字符串文字和键的字典项的 for 循环内的数据框中创建一个新列,但它会引发“ValueError:无法设置没有定义索引和标量的框架”错误消息。

exp 类别的字典定义

基于主数据框创建新数据框

创建一个最终将写入 excel 的新数据框

输出看起来像这样

在此处输入图像描述

我正在尝试添加一个新列,显示比 {key} 更高/更低的预算,其中 key 代表使用以下代码的费用类型

但是使用上面的字符串文字会给我错误消息“ValueError:无法设置没有定义索引和标量的框架”

我非常感谢任何帮助来纠正这个问题或找到一个不同的解决方案来将此字段添加到我的数据框中。提前致谢!

0 投票
2 回答
42 浏览

r - 将大型数据集的多个标题列转换为行

我有以下数据框(此处显示的头部),它很乱。

我想将我的数据集转换为以下格式(它有 7000 个观察值,我刚刚展示了数据集的头部):我想得到(1997-2016 在名为“cartrip”的一列下)和(1997-2016 在另一列名为“行走”)

我试图收集,但没有用。

0 投票
1 回答
271 浏览

python - pandas group_by 数据框在写入excel时只输出聚合列;如何在excel上获得整个输出?

我正在尝试对数据框中的特定列进行分组和汇总,然后将整个输出写入 excel;但是,当我在使用以下代码后检查 excel 文件时,它只包含一个聚合列作为输出,不包括任何其他分组。我有人可以帮助我更正代码或提供有关如何实现此目标的建议吗?提前致谢!

ipynb 上的输出如下所示

接下来,我使用下面的代码将其写入 excel,但它没有将输出写入 excel,如上图所示

Excel 输出

为什么写入excel时按输出分组不一样?

0 投票
1 回答
216 浏览

python - 如何通过考虑大型数据集中选定的列和行来重塑或转置数据集(世界银行示例)

我正在尝试从世界银行网站上整理一个数据集,我需要以某种方式重塑系列名称,以使系列名称成为第一行,并将年份全部排列在一个列中。数据集中有 50 年和 100 多个指标,所以这种重塑需要某种形式的自动化来为我工作。实际数据集的摘录如下图所示。

在此处输入图像描述

为了简化重塑过程,我还分享了一个可重现的代码,以显示我在列和行之间的排列方面所考虑的过渡,如迄今为止以叙述形式说明的那样。

请注意:可重现的代码并不是输出的完美表示,因为它非常简化,并且实际使用的数据集有数百个指标和数百个国家

在此处输入图像描述

我想使用一个片段来达到这个结构,如代码下方的输出所示

在此处输入图像描述

我正在寻找一个快速的代码片段来达到我的结果,而无需花费太多时间逐列解决方案。谢谢!

0 投票
1 回答
269 浏览

r - 有条件地插入新行并将值添加到 R 中的新行

我有一个数据框和一个只有两个数字的向量:201 和 200。

我需要按顺序添加acc列中的值type,在每个实例下。df1$type == 199有相同数量的 199 和 中的数字acc

latency应该从上面的行复制,并添加 50。 urevent在每个新行中应该是 0。

以下是所需的输出:

0 投票
2 回答
79 浏览

r - 数据从宽格式到长格式,具有多个不同类型的重复列

数据集描述了多个集群的多次重复测量,每个测量集群对包含在单个列中。我想将数据整理成较长的(er)格式,以便一列提供有关集群的信息,但每个测量值都保留在自己的列中。

真实数据集包含多达 25 个集群,每个集群有 100 个测量值。我尝试使用tidyr::gather()tidyr::pivot_longer()迭代每个测量值,但生成的中间数据帧的大小呈指数增长。tidyr::pivot_longer()由于值属于不同的类别,因此尝试一步完成是不可能的。我想不出一种方法来将它按比例矢量化。