问题标签 [data-wrangling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
34 浏览

r - 在r中组合列表的组件

我有一个包含年份数据的列表。我想将这些组件组合成一个按行匹配的数据框。示例列表:

我希望数据框看起来像(我知道我将不得不通过并删除一些额外的列:

我已经尝试了该命令Outcomewanted=do.call("cbind", examplelist),但收到了消息

似乎 cbind.fill 命令可能是一个选项,但已被淘汰?感谢您提前提供任何帮助。

0 投票
2 回答
36 浏览

r - 根据行值隔离多行事务

我有一个零售交易数据集,如下所示:

其中,
TRANDIS是交易标识符
GROSS AMNT是交易行的总金额
TRANSROWTYPE是交易的行类型。

所有交易都有 2 种类型的行

  1. 类型A:交易的详细行。一个事务可以有 1 个或多个 TypeA行。
  2. 类型Z:交易的标题行。一个事务只能有 1 个类型Z行。

理想情况下,对于 a ,Type 行中sTRANSID的总和应该等于 Type 行中的the 。GROSS AMNTAGROSS AMNTZ

在示例中,这对于 是正确的TRANSID=123,但对于 不是TRANSID=126

我的查询是如何将Type rows= s in Type row 中的TRANSIDs那些与两者不相等的那些分开?
GROSS AMNTsAGROSS AMNTZ

我特别有兴趣找到使用的解决方案dplyr

提前谢谢了。

0 投票
1 回答
44 浏览

r - 用于创建多个条形图的数据争论

所以,我有这个小标题,我试图从中制作一个多重条形图,显示支持(支持)或反对(反对)每个候选人的花费

但是,我完全不知道如何去做,我想我想重新排列这个小标题,以便更简单地创建一个图表。任何指针都会非常有帮助。

我希望最终实现如下所示的结果:

在此处输入图像描述

不同颜色的条表示支持/反对,y 轴表示花费的金额。

0 投票
1 回答
44 浏览

python - 如何使用 Python 将另一个 pandas DataFrame 映射到另一个

我有两个Pandas DataFrame。我有一个包含 3 列兴趣的数据框,其中包含不同产品的客户 ID。我有第二个包含客户姓名的数据框。我想扩展第一个数据框以将包含客户姓名的新列作为单独的列。例如,我想扩展与第二个数据帧映射的主数据帧,但使用新列,如customer_1_name, customer_2_name, customer_3_name

请记住,一个客户可以有不同的客户 ID 包。

为了解决我的问题。我附上了两个数据框的片段

请注意:这只是大型数据框的一个片段,以便您了解我要解决的问题。

我试过这个如何将一个数据帧映射到另一个(python pandas)?,不幸的是,这对我的情况没有帮助。

谢谢你的时间

0 投票
1 回答
112 浏览

r - R中字符串到日期转换的“标准明确日期”错误

所以我正在尝试这段代码,我过去曾将它与其他数据整理任务一起使用,没有错误:

但是,我不断收到此错误消息:“charToDate(x) 中的错误:字符串不是标准的明确格式”

我相信这个错误正在发生,因为在我使用的管理数据集中,start_date 和birth_date 变量的格式很奇怪:

我找不到关于为什么数据被格式化的答案,所以关于如何在不改变原始管理数据集的情况下解决这个问题的任何想法?

0 投票
1 回答
130 浏览

r - 如何在r中将多个选定的列名从整数转换为日期

我有一个数据集,其列名看起来像这样。

输入

X1.22.20 代表 1/22/2020

所需输出

0 投票
1 回答
27 浏览

r - 在 R 中争吵数据帧,可能使用 dcast

我有一个相当大的 data.frame,我必须对其进行一些处理。目前的结构是:

例如对于 data_frame:

我最终想要的是这样的表格:

到目前为止,我在 R 中尝试过的是:

samples_data <- seq(from = 5, to = dim(df)[2],by=2) variable_data <- samples_data + 1

new_df <- reshape2::dcast(df, V1 + V2 + V3 ~ colnames(df)[samples_data], value.var= colnames(df)[variable_data])

但我收到此错误消息:

有没有人对如何解决这个问题或如何重塑 df 有任何建议?

谢谢!

0 投票
2 回答
47 浏览

python - 如何在 Pandas 系列中映射字符串

有没有办法map characters进入column.Pandas

例如,我想映射这样的列info{“1”:“US”,“2”:“DE”,“3”:“CA”,“4”:“AU”,“5”: “是”}

所以不是数字,我想要一些东西US和其他的东西来展示

编辑注意:我不想爆炸列,我想保持它们原样,只用字符串替换数字

0 投票
3 回答
55 浏览

python - 如何在数据框中使用 if 循环

问题:如果国家的可再生能源百分比值等于或高于前 15 名中所有国家的中位数,则创建一个新列,如果该国家的可再生能源百分比值低于中位数,则创建一个 0。

我的解决方案:

错误:Series 的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。

帮助:有人可以告诉我为什么会出现这个错误吗?单击此链接以查看数据框

0 投票
1 回答
119 浏览

python - 在 python 中抓取维基百科表格:常见的网格样式

我看到最近 Wikipedia 上的加拿大邮政编码列表表已从普通表格更改为常见的网格样式加拿大邮政编码列表:M

我尝试了不同的方式,但将其转换为 df 并不容易。

这个数据的问题是它的值没有被 tr 标签分隔。我想要一个旧格式的 df,比如旧格式

我的问题是-我可以直接使用 bs4 或任何 python 代码执行此操作,还是必须按原样导入表,然后修改 df. 如果有简单的方法请帮助我。

我的代码给出这样的结果:

结果