r - JMP 拆分表的 tidyr 或 dplyr 等效项

Question

JMP 有一个“分表”平台：
http ://www.jmp.com/support/help/Split_Columns.shtml

这是它的图像：

“拆分依据”成为列标题的一部分。
“拆分列”是展开的列。
“组”是保留的列。

我查看了一些链接/页面，但似乎无法在 R 中正确理解这一点。现在我必须将它整合到 JMP 中的宏中。

对我没有帮助的链接包括：

我需要将约 20k 行和约 30 列的表沿其中一列（0 到 13 之间的整数）拆分为约 1400 行，其中约 25 行拆分为 350。

一个不优雅但可重复的示例是拆分此汽车表

根据这个：

产生这个：

如何使用 tidyr 或 dplyr 等 R 库来执行此操作并保留 ~5 个非拆分列？

score 1 · Accepted Answer

使用 reshape，一次做一个拆分列并不算太糟糕。然后，您可以将模型和 engine.disp 合并在一起。对于您的真实示例，您可以只更改聚合列表和演员表中的公式。

x <- read.csv('http://web.pdx.edu/~gerbing/data/cars.csv',stringsAsFactors = F)
names(x) <- tolower(names(x))

agg <- aggregate(list(model = x$model),list(origin = x$origin,cylinders = x$cylinders,year = x$year),FUN = paste,collapse = ',')

require(reshape)
output <- cast(data = agg,formula = origin + cylinders ~ year,value = 'model')

编辑：我没有检查所有可能的情况，但这个功能应该类似于拆分表，或者至少给你一个好的开始。

x <- read.csv('http://web.pdx.edu/~gerbing/data/cars.csv',stringsAsFactors = F)
names(x) <- tolower(names(x))

jmpsplitcol <- function(data,splitby,splitcols,group){

  require(reshape)
  require(tidyr)

  aggsplitlist <- data[ ,names(data) %in% c(splitby,group)]
  aggsplitlist <- lapply(aggsplitlist,`[`)

  agg <- aggregate(list(data[ ,names(data) %in% splitcols]),aggsplitlist,FUN = paste,collapse = ',')

  newgat <- gather_(data = agg,key = 'splitcolname','myval',splitcols)

  castformula <- as.formula(paste(paste(group,collapse = ' + '),'~','splitcolname','+',splitby))
  output <- cast(data = newgat,formula = castformula,value = 'myval')
  output
}
res <- jmpsplitcol(x,c('year'),c('engine.disp','model'),c('origin','cylinders'))
head(res2)

r - JMP 拆分表的 tidyr 或 dplyr 等效项

1 回答 1

Related

Reference