1

我之前发布了一个与此相关的问题,但解决方案并没有完全解决我的问题。

我有一个包含字符“'”和“#”的表,当我使用 read.table() 读取它时,它不能跳过包含这些字符的行。

我正在使用以下命令读取文件:

table<- read.table("table.txt",header =TRUE, sep ="\t",quote="'",skip=8,fill=TRUE, comment.char="#",check.names=F)

这只是读取表格的第一列,而不是像应该做的那样读取整个表格,有什么建议可以解决这个问题吗? 在此处输入图像描述

包含 # 的表的示例行是:

Homo sapiens    Unigene Hs.549823   ILMN_110080 HS.549823   Hs.549823       Hs.549823       5053715 AI732602            ILMN_1846799    5910129 S   320 GCAGGTTGTTATTGTTGCTGAGCGGGGTGTGTGGGTGGCTAACGAGAGGG  11  +   61276241-61276290       zo26g12.x5 Stratagene colon (#937204) Homo sapiens cDNA clone IMAGE:588070 3, mRNA sequence
4

1 回答 1

2

尝试使用readLines()来获取原始行,然后根据您的分隔符拼接它们

library(stringr)

# Open Connection to file
pathToFile <- path.expand("~/path/to/file/myfile.txt")
f <- file(pathToFile, "rb")  

# Read in lines
rawText <- readLines(f)

problemFreeTable <- 
  sapply(rawText, str_split, "\t")  # replace "\t" with "," or the appropriate delim. 
于 2012-11-13T05:21:36.673 回答