r - 为什么 lapply 在这个脚本中产生随机的 NA 值？

Question

仅在文件夹中的一个文件上运行此脚本时：

emboss<-read.table("emboss_012.ss",header=T)
x<-table(emboss[,2],emboss[,3])/NROW(emboss[,3])
y<-as.vector(t(x))
nms <- expand.grid(colnames(x), rownames(x))
names(y) <- paste( nms[,2],nms[,1],sep="")
write.table(t(y), file = "test3.csv",append=TRUE)

我得到了想要的结果

但是，对文件夹中的所有文件一次性执行此操作会导致随机出现 NA。我这样做是：

runForAll <- function(x) {
  emboss <- read.table(x,header=T)
  x <- table(emboss[,2],emboss[,3])/NROW(emboss[,3])
  y <- as.vector(t(x))
  nms <- expand.grid(colnames(x), rownames(x))
  names(y) <- paste( nms[,2],nms[,1],sep="")
  return(t(y))
}

my.files <- list.files(pattern = "emboss_\\d+\\.ss")
outputs <- lapply(my.files, FUN = runForAll)   

library(plyr)
one.header.output <- rbind.fill.matrix(outputs)
write.table(one.header.output, file = "nontpsec.csv")

我的文件位于此处：

https://drive.google.com/folderview?id=0B0iDswLYaZ0zWjQ4RjdnMEUzUW8&usp=sharing

这很奇怪，不能解释为什么会发生这种情况，尤其是在所有其他数据正确的情况下，即使一次性遍历所有文件也是如此。

score 2 · Accepted Answer

您的数据表长度不同，例如第一个有 20 行，最后一个只有 19 行！这就是问题所在。

这是一个小测试：

tmp <- c("A", "C", "D", "E", "F", "G", "H", "I", "K", "L", "M", "N", "P", "Q", "R", "S", "T", "V", "W", "Y")

which(rownames(x) %in% tmp)

对于文件 12 和 13，缺少第二行（标签 B）。

看看这个帖子：

比较两个 data.frame 以查找 data.frame 1 中不存在于 data.frame 2 中的行

这可能对您有用：

在data.frame中为缺失值添加行的最快方法？

r - 为什么 lapply 在这个脚本中产生随机的 NA 值？

1 回答 1

Related

Reference