在其他语言中似乎有类似的问题,但我在 R 中找不到。
我在一个目录的子目录中有许多文本文件;它们都具有扩展名 (.log),并且包含文本和数据的混合。我想从这些相对较大的文件中提取几行。
例如,一个文件如下...
blahblahblah
NUMBER OF CARTESIAN GAUSSIAN BASIS FUNCTIONS = 210
blahblahblah
----------------------------------------<br />
CPU timing information for all processes<br />
========================================<br />
0: 8853.469 + 133.948 = 8987.417<br />
1: 8850.817 + 126.587 = 8977.405<br />
2: 8851.925 + 128.576 = 8980.501<br />
3: 8847.992 + 125.871 = 8973.864<br />
----------------------------------------<br />
ddikick.x: exited gracefully.<br />
blahblahblah
我想收集基函数的数量(本例中为 210)和 CPU 时间总量。
“NUMBER OF CARTESIAN GAUSSIAN BASIS FUNCTIONS =”对每个文件都是唯一的;即,如果我在文本编辑器中打开文件并使用此字符串进行搜索,我只返回这一行。同样对于“所有进程的 CPU 计时信息”和“正常退出”。
我很感激我似乎没有做很多事情来帮助自己,但我只是不知道从哪里开始。如果有人能指出我正确的方向,我希望能够填补其余部分。
在@Ben(见下文)给我的帮助之后,这是我最终使用的代码,
filesearch <- function (x) {
f <- readLines(x)
cline <- grep("NUMBER OF CARTESIAN GAUSSIAN BASIS FUNCTIONS",f,
value=TRUE)
val <- as.numeric(str_extract(cline,"[0-9]+$"))
coline <- grep("^ +CPU timing information", f)
numstr <- sapply(str_extract_all(f[coline+2:5],"[0-9.]+"),as.numeric)
cline1 <- sum(numstr[4,])/60
output <- c(val, cline1)
return(cat(output,"\n"))
}
我获取了这个函数并键入了我每次需要的文件,然后我手动将两个结果转移到另一个文件中。没有我想要的那么优雅,但这样做为我节省了很多时间。再次感谢@Ben。