r - R：大数据：确定字符串长度

翻译自：https://stackoverflow.com/questions/35138404 2016-02-01T19:14:29.417

88 次

我的数据如下所示，有数百万行。可以将此文本复制到文本文件中，并在下面的示例中读取。

@HISEQ:104:C7Y3WACXX:4:1101:1307:1946 1:N:0:CGATGT
NTCCGGTAGTGTAGCAGATCGGAAGAGCACACGTCTGAACTCCAGTCACC
+                                                 
#0<FFFBBFBFFFFFIFIFIIIIIIIFIIIIIIIIIIIIIIIIFIIFIII
@HISEQ:104:C7Y3WACXX:4:1101:1356:1968 1:N:0:CGATGT
CGAGAGCTTTGAAGGCCGAAGTGGAAGATCGGAAGAGCACACGTCTGAAC
+                                                 
BBBFFFFFFFFFFFFFFFIIIBFFIIIIIFIIIIIIIIIIIIIFFFFFFF

我正在尝试阅读上面的文本并确定以 N、C、G 或 T 开头的字符串的长度。我通常会这样做：

f <- scan(filepath,nmax=8,what="character",sep="\n")
f1 <- f[grep("^[NAGCT]+",f)]
nchar(f1)

我将如何对ff包做同样的事情？

library(ff)
f <- read.table.ffdf(file=filepath,header=F,nrow=8,sep="\n")

我尝试了各种方法，但都没有奏效。

r - R：大数据：确定字符串长度

0 回答 0

Related

Reference