0

我有这个大文件名 Objects_Population - AllCells.txt 大约 3GB,该文件有 25704373 行和 132 个变量。我想读取文件并根据一个变量拆分行,该变量是名为treatmentsum 的列。在本专栏中,我有不同条件(3S 或 UNS)下的实验性药物治疗,即用“_”链接的字符串。因此拆分会将所有具有相同处理的行放在一起。拆分文件后,我想写出拆分文件并使用处理和给出文件名。

我的代码如下:

#load libraries
library(tidyverse)
library(vroom)
library(dplyr)
library(stringr)

#read in the file, skip the first 9 rows
files<-vroom("Objects_Population - AllCells.txt", delim = "\t",skip = 9,col_names = T)

#split the files based on treatmentsum
splited<- files %>% 
  group_split(files$treatmentsum)

#write out the splitted files
output<- lapply(splited, function(i){
  for (i in 1:length(splited)) {
    write.table(splited[[i]][,1:131],file=paste(unique(splited[[i]]$treatmentsum),".txt"), sep="\t", row.names=FALSE)

  }
 })

因此,当我运行它时,文件读取正确,并且拆分工作正常并且处理按预期吐出,即我得到一个 1092 列表(显示在环境中),每个列表都包含具有相同处理的行。然而,代码每次写给我 233 个文件后都会死掉。我已经截图了错误,生成的所有文件都是3S,没有生成UNS文件(在右下角文件目录截图中可以看到)。有人可以帮我解决这个问题并让我知道错误的含义吗?在此处输入图像描述

4

1 回答 1

0

我想出了一些文件名,因为治疗的名称中会有“/”。受此启发https://stackoverflow.com/a/49647853/12362355

library(tidyverse)
library(vroom)
library(dplyr)
library(stringr)
files<-vroom("Objects_Population - AllCells.txt", delim = "\t",skip = 9,col_names = T)


splited<- files %>% 
  group_split(files$treatmentsum)



output<- lapply(splited, function(i){
  for (i in 1:length(splited)) {
    write.table(splited[[i]][,1:131],file=paste0(gsub("/","",unique(splited[[i]]$treatmentsum)),".txt"), sep="\t", 
row.names=FALSE)

  }
 })
于 2020-09-23T21:03:01.990 回答