我有一个函数,readnorm
它从由整数标识的文件中返回相关数据的列表:
readnorm <- function(n) {
a <- read.csv(paste("/tmp/diff-a-", n, ".txt", sep=""),
col.names=c("raw"), header=FALSE)
a <- list(n=n, raw=a$raw, median=median(a$raw), iqr=IQR(a$raw))
a$shifted <- a$raw - a$median
a$scaled <- a$raw / a$iqr
a$normed <- a$shifted / a$iqr
a$necdf <- ecdf(a$normed)
return(a)
}
我可以使用以下方法构建一个包含一组文件中的数据的列表lapply
:
> ns = c(5,6,7,8,9,10,15,20,25,30)
> data <- lapply(ns, readnorm)
> ls(data[[1]])
[1] "iqr" "median" "n" "necdf" "normed" "raw" "scaled"
[8] "shifted"
现在,我想做的是从一组数据帧中构造,称为normed
,scaled
等,它将数据中组件的条目分组(名称可以是n
R 中是否允许整数名称的值,因此normed$5
包含data[[5]]$normed
, ETC)。
那有意义吗?例如,通过这种方式,我可以使用raw
数据框绘制所有原始数据。这是一种将我的数据结构“从内到外”的转变。
我是 R 新手,所以可能做错了什么。用更高级的术语来说,我相信不同文件中的数据来自相似的分布、移位和缩放,我想探索这个假设。上面的代码是我尝试安排的事情,以便我可以系统地这样做。
所以我的主要问题是如何生成数据框,但我也对如何解决这个问题的更一般的指导感兴趣(如何管理数据——我知道这样的工具qqplot
将有助于分析本身)。