2

JMP 有一个“分表”平台:
http ://www.jmp.com/support/help/Split_Columns.shtml

这是它的图像:

在此处输入图像描述

“拆分依据”成为列标题的一部分。
“拆分列”是展开的列。
“组”是保留的列。

我查看了一些链接/页面,但似乎无法在 R 中正确理解这一点。现在我必须将它整合到 JMP 中的宏中。

对我没有帮助的链接包括:

我需要将约 20k 行和约 30 列的表沿其中一列(0 到 13 之间的整数)拆分为约 1400 行,其中约 25 行拆分为 350。

一个不优雅但可重复的示例是拆分此汽车
在此处输入图像描述

根据这个:
在此处输入图像描述

产生这个:
在此处输入图像描述

如何使用 tidyr 或 dplyr 等 R 库来执行此操作并保留 ~5 个非拆分列?

4

1 回答 1

1

使用 reshape,一次做一个拆分列并不算太糟糕。然后,您可以将模型和 engine.disp 合并在一起。对于您的真实示例,您可以只更改聚合列表和演员表中的公式。

x <- read.csv('http://web.pdx.edu/~gerbing/data/cars.csv',stringsAsFactors = F)
names(x) <- tolower(names(x))

agg <- aggregate(list(model = x$model),list(origin = x$origin,cylinders = x$cylinders,year = x$year),FUN = paste,collapse = ',')

require(reshape)
output <- cast(data = agg,formula = origin + cylinders ~ year,value = 'model')

编辑:我没有检查所有可能的情况,但这个功能应该类似于拆分表,或者至少给你一个好的开始。

x <- read.csv('http://web.pdx.edu/~gerbing/data/cars.csv',stringsAsFactors = F)
names(x) <- tolower(names(x))

jmpsplitcol <- function(data,splitby,splitcols,group){

  require(reshape)
  require(tidyr)

  aggsplitlist <- data[ ,names(data) %in% c(splitby,group)]
  aggsplitlist <- lapply(aggsplitlist,`[`)

  agg <- aggregate(list(data[ ,names(data) %in% splitcols]),aggsplitlist,FUN = paste,collapse = ',')

  newgat <- gather_(data = agg,key = 'splitcolname','myval',splitcols)

  castformula <- as.formula(paste(paste(group,collapse = ' + '),'~','splitcolname','+',splitby))
  output <- cast(data = newgat,formula = castformula,value = 'myval')
  output
}
res <- jmpsplitcol(x,c('year'),c('engine.disp','model'),c('origin','cylinders'))
head(res2)
于 2017-06-12T20:31:42.773 回答