问题标签 [data-munging]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

201 问题

0 投票

2 回答

506 浏览

python - Pandas 中的数据处理

我有一个 CSV 文件，其中的行如下所示：

我可以用

给定一个特定的列，我想按 ID 拆分行，然后输出每个 ID 的平均值和标准差。

我的第一个问题是，如何从数字中删除所有非数字部分，例如“100M”和“0N#”，它们应该分别为 100 和 0。

但是，这会将 98.4 更改为 984。

2015-11-13T09:35:10.503

0 投票

2 回答

129 浏览

r - R - 数据处理和可扩展代码

嗨，在过去的几天里，我遇到了一个小/大问题。

我有一个交易数据集，有 100 万行和两列（客户 ID 和产品 ID），我想将其转换为二进制矩阵。我使用了 reshape 和 spread 功能，但在这两种情况下，我都使用了 64mb 内存并且 Rstudio/R 出现故障。因为我只用了1个CPU，所以这个过程需要很多时间我的问题是，小数据和大数据之间的这种转变有什么新的进展？谁可以使用更多的cpu？

我搜索并找到了几个解决方案，但我需要专业意见

1 - 使用 Spark R？

2 - H20.ai 解决方案？ http://h2o.ai/product/enterprise-support/

3 - 革命分析？http://www.revolutionanalytics.com/big-data

4 - 去云端？像微软天蓝色？

如果需要，我可以使用具有很多内核的虚拟机.. 但我需要知道进行此交易的流畅方式是什么

我的具体问题

我有这个data.frame（但有100万行）

我做到了：

这适用于一个小数据集.. 但是有 100 万行这需要很长时间（12 小时）并且会下降，因为我的最大内存是 64MB。有什么建议么？

r azure sparkr h2o data-munging

2015-11-19T10:54:12.807

0 投票

1 回答

62 浏览

r - 在R中对数据框中的数据进行排序

在数据整理和使用传播后，我得出了下表：投诉类型和自治市镇

我想确定每个自治市镇的前 4 个问题。排序没有帮助，因为有 4 个自治市镇。关于如何获得的任何想法？

r data-munging

2015-12-02T20:50:14.740

0 投票

1 回答

313 浏览

python - csv DictReader 上的“工作”失败

我正在编写一个脚本，我需要将 CSV 读入 a DictReader，在字段上做一些工作（数据处理），然后DictReader通过DictWriter.

如果我阅读 CSV 然后编写字典，则该过程有效。

但是 - 如果我添加一个新列，我似乎会丢失 DictReader 中的所有数据：

有没有办法在写之前对 DictReader 执行工作？

python csv data-manipulation data-munging

2015-12-21T20:56:12.813

0 投票

1 回答

2983 浏览

user-defined-functions - 将列表/数组作为参数/返回类型传递并返回给 Redshift 中的 UDF

我有一堆指标消耗一列的整个浮点值列表（想想一系列订单值，我在上面做一些异常值分析，因此需要整个值数组）。

我可以将整个列表作为参数传递吗？如果我完全在 python 中执行此操作，那将是太多的数据处理。想法？

我可以m = np.median(y)从另一个函数传递（使用数据库上的 select 语句） - 但再次计算 abs_dev & left_mad & right_mad 需要整个系列。
我可以在这里使用anyelement数据类型吗？AWS 参考：http ://docs.aws.amazon.com/redshift/latest/dg/udf-data-types.html

这是我尝试过的。另外，如果标志为“0”，我想返回该列的值 - 但我想我可以在第二遍时做到这一点？

我的最终目标是使用通过 UDF（最终目标）进行的这些计算来填充画面视图 - 所以我需要一些可以与画面交互并使用函数动态进行计算的东西。建议？

user-defined-functions amazon-redshift udf data-munging

2016-02-04T03:28:33.143

0 投票

5 回答

176 浏览

r - 3位字符序列的重复行值 - 整齐的数据

给定以下数据框：

我想生成以下结果：

我在想我也许可以利用tidyr- 也许complete()或的东西expand()，但是有三个字符的字符串，df$start并且df$end一直给我带来麻烦。

我使用: 取得了一定的成功apply(df, 1, function(i) seq(as.numeric(i["start"]), as.numeric(i["end"])))，然后我可以将其传递给类似的东西stringr::str_pad(..., width = 3, pad = "0")，但我不确定如何巧妙地抓住这些重复序列的区域。

r dplyr tidyr data-munging

2016-06-15T16:20:26.320

0 投票

0 回答

73 浏览

count - SAS 数据集统计棒球连胜纪录

嗨：我正在处理棒球数据集。我想计算一个团队获胜的连胜纪录。我创建了一个变量叫win，如果A队获胜则为1，否则为0。我想创建一个名为winstreak的变量，如果A队获胜1次，则为1，如果A队连续获胜2次，则是 2，如果 A 队输了，它会再次回到 0。到目前为止，我已经尝试过：

该代码不起作用，因为 winstreak 只显示与 PHIWIN 相同的值。请帮忙！

count sas data-processing data-munging

2016-07-04T02:29:01.863

0 投票

1 回答

42 浏览

sql - 使用任何建议的方法拆分文本

我有这样的纯文本：

我需要从该文本中拆分购物车 ID，并最终得到如下内容：

这些 ID 始终为 6 位长度，并且始终以A、E或P( AXXXXX、EXXXXX、PXXXXX等...) 开头。

有什么方法（使用任何脚本或任何程序语言）可以实现这一点吗？

此纯文本当前位于电子表格表中，我需要将这些 ID 分开以供稍后在 SQL 查询中使用，谢谢！

sql split data-munging

2016-07-26T14:23:07.620

0 投票

2 回答

359 浏览

r - 如何根据 R 中的另一列值为列分配值？

我有一个数据框

我想添加附加列 col4，其值基于 col2。在 col2 中具有相同值的行在 col4 中也将具有相同的值。

通过解决方法，我通过以下方式生成了结果。

这可行，但我认为有更好的方法来做到这一点。谢谢！

r merge data-munging

2016-08-12T09:52:00.303

0 投票

2 回答

5437 浏览

python - Pandas Pivot Table 格式化列名

我pandas.pivot_table在 pandas 数据框上使用了该函数，我的输出看起来与此类似：

我真正需要的是像下面这样的东西

我有很多专栏和年份，所以我将无法手动编辑它们，所以有人可以告诉我如何做到这一点吗？

python pandas dataframe pivot-table data-munging

2016-08-20T03:55:21.887

1 2 3 4 5 6 7 8 9 10

问题标签 [data-munging]

Reference