问题标签 [data-munging]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pandas 中的数据处理
我有一个 CSV 文件,其中的行如下所示:
我可以用
给定一个特定的列,我想按 ID 拆分行,然后输出每个 ID 的平均值和标准差。
我的第一个问题是,如何从数字中删除所有非数字部分,例如“100M”和“0N#”,它们应该分别为 100 和 0。
我还尝试遍历相关标题并使用
正如Pandas DataFrame 中所建议的:从列中的字符串中删除不需要的部分。
但是,这会将 98.4 更改为 984。
r - R - 数据处理和可扩展代码
嗨,在过去的几天里,我遇到了一个小/大问题。
我有一个交易数据集,有 100 万行和两列(客户 ID 和产品 ID),我想将其转换为二进制矩阵。我使用了 reshape 和 spread 功能,但在这两种情况下,我都使用了 64mb 内存并且 Rstudio/R 出现故障。因为我只用了1个CPU,所以这个过程需要很多时间我的问题是,小数据和大数据之间的这种转变有什么新的进展?谁可以使用更多的cpu?
我搜索并找到了几个解决方案,但我需要专业意见
1 - 使用 Spark R?
2 - H20.ai 解决方案? http://h2o.ai/product/enterprise-support/
3 - 革命分析?http://www.revolutionanalytics.com/big-data
4 - 去云端?像微软天蓝色?
如果需要,我可以使用具有很多内核的虚拟机.. 但我需要知道进行此交易的流畅方式是什么
我的具体问题
我有这个data.frame(但有100万行)
我做到了:
这适用于一个小数据集.. 但是有 100 万行这需要很长时间(12 小时)并且会下降,因为我的最大内存是 64MB。有什么建议么?
r - 在R中对数据框中的数据进行排序
在数据整理和使用传播后,我得出了下表: 投诉类型和自治市镇
我想确定每个自治市镇的前 4 个问题。排序没有帮助,因为有 4 个自治市镇。关于如何获得的任何想法?
python - csv DictReader 上的“工作”失败
我正在编写一个脚本,我需要将 CSV 读入 a DictReader
,在字段上做一些工作(数据处理),然后DictReader
通过DictWriter
.
如果我阅读 CSV 然后编写字典,则该过程有效。
但是 - 如果我添加一个新列,我似乎会丢失 DictReader 中的所有数据:
有没有办法在写之前对 DictReader 执行工作?
user-defined-functions - 将列表/数组作为参数/返回类型传递并返回给 Redshift 中的 UDF
我有一堆指标消耗一列的整个浮点值列表(想想一系列订单值,我在上面做一些异常值分析,因此需要整个值数组)。
我可以将整个列表作为参数传递吗?如果我完全在 python 中执行此操作,那将是太多的数据处理。想法?
我可以
m = np.median(y)
从另一个函数传递(使用数据库上的 select 语句) - 但再次计算 abs_dev & left_mad & right_mad 需要整个系列。我可以在这里使用
anyelement
数据类型吗?AWS 参考:http ://docs.aws.amazon.com/redshift/latest/dg/udf-data-types.html
这是我尝试过的。另外,如果标志为“0”,我想返回该列的值 - 但我想我可以在第二遍时做到这一点?
我的最终目标是使用通过 UDF(最终目标)进行的这些计算来填充画面视图 - 所以我需要一些可以与画面交互并使用函数动态进行计算的东西。建议?
r - 3位字符序列的重复行值 - 整齐的数据
给定以下数据框:
我想生成以下结果:
我在想我也许可以利用tidyr
- 也许complete()
或的东西expand()
,但是有三个字符的字符串,df$start
并且df$end
一直给我带来麻烦。
我使用: 取得了一定的成功apply(df, 1, function(i) seq(as.numeric(i["start"]), as.numeric(i["end"])))
,然后我可以将其传递给类似的东西stringr::str_pad(..., width = 3, pad = "0")
,但我不确定如何巧妙地抓住这些重复序列的区域。
count - SAS 数据集统计棒球连胜纪录
嗨:我正在处理棒球数据集。我想计算一个团队获胜的连胜纪录。我创建了一个变量叫win,如果A队获胜则为1,否则为0。我想创建一个名为winstreak的变量,如果A队获胜1次,则为1,如果A队连续获胜2次,则是 2,如果 A 队输了,它会再次回到 0。到目前为止,我已经尝试过:
该代码不起作用,因为 winstreak 只显示与 PHIWIN 相同的值。请帮忙!
sql - 使用任何建议的方法拆分文本
我有这样的纯文本:
我需要从该文本中拆分购物车 ID,并最终得到如下内容:
这些 ID 始终为 6 位长度,并且始终以A
、E
或P
( AXXXXX
、EXXXXX
、PXXXXX
等...) 开头。
有什么方法(使用任何脚本或任何程序语言)可以实现这一点吗?
此纯文本当前位于电子表格表中,我需要将这些 ID 分开以供稍后在 SQL 查询中使用,谢谢!
r - 如何根据 R 中的另一列值为列分配值?
我有一个数据框
我想添加附加列 col4,其值基于 col2。在 col2 中具有相同值的行在 col4 中也将具有相同的值。
通过解决方法,我通过以下方式生成了结果。
这可行,但我认为有更好的方法来做到这一点。谢谢!
python - Pandas Pivot Table 格式化列名
我pandas.pivot_table
在 pandas 数据框上使用了该函数,我的输出看起来与此类似:
我真正需要的是像下面这样的东西
我有很多专栏和年份,所以我将无法手动编辑它们,所以有人可以告诉我如何做到这一点吗?