30

当标题有两个必要的标题行时,将文件读入 R 的最佳方法是什么?

这一直发生在我身上,因为人们经常使用一行作为列名,然后在其下方包含另一行作为度量单位。我不想跳过任何东西。我希望名称和单位得以贯彻。

以下是具有两个标头的典型文件的外观

trt   biomass    yield
crop    Mg/ha    bu/ac
C2      17.76   205.92
C2      17.96   207.86
CC      17.72   197.22
CC      18.42   205.20
CCW     18.15   200.51
CCW     17.45   190.59
P       3.09    0.00
P       3.34    0.00
S2      5.13    49.68
S2      5.36    49.72
4

5 回答 5

24

我会做两个步骤,假设我们知道第一行包含标签,并且总是有两个标题。

header <- scan("file.txt", nlines = 1, what = character())
data <- read.table("file.txt", skip = 2, header = FALSE)

然后将字符向量添加headernames组件:

names(data) <- header

对于您的数据,这将是

header <- scan("data.txt", nlines = 1, what = character())
data <- read.table("data.txt", skip = 2, header = FALSE)
names(data) <- header

head(data)

>     head(data)
  trt biomass  yield
1  C2   17.76 205.92
2  C2   17.96 207.86
3  CC   17.72 197.22
4  CC   18.42 205.20
5 CCW   18.15 200.51
6 CCW   17.45 190.59

如果你想要单位,按照@DWin的回答,然后scan()在第2行做第二个

header2 <- scan("data.txt", skip = 1, nlines = 1, what = character())
names(data) <- paste0(header, header2)

> head(data)
  trtcrop biomassMg/ha yieldbu/ac
1      C2        17.76     205.92
2      C2        17.96     207.86
3      CC        17.72     197.22
4      CC        18.42     205.20
5     CCW        18.15     200.51
6     CCW        17.45     190.59
于 2013-07-22T22:02:37.420 回答
11

使用readLineswith 2 作为限制,将它们解析paste0在一起,然后使用read.tablewith skip =2and header=FALSE(默认值)读入。通过分配列名完成该过程:

dat <- "trt biomass yield
 crop   Mg/ha   bu/ac
 C2 17.76   205.92
 C2 17.96   207.86
 CC 17.72   197.22
 CC 18.42   205.20
 CCW    18.15   200.51
 CCW    17.45   190.59
 P  3.09    0.00
 P  3.34    0.00
 S2 5.13    49.68
 S2 5.36    49.72
 "

您可能会使用文件参数,但使用textread-functions 的参数会使它更加独立:

 readLines(textConnection(dat),n=2)
#[1] "trt\tbiomass\tyield" "crop\tMg/ha\tbu/ac" 
 head2 <- read.table(text=readLines(textConnection(dat),n=2), sep="\t", stringsAsFactors=FALSE)
 with(head2, paste0(head2[1,],head2[2,]) )
# [1] "trtcrop"      "biomassMg/ha" "yieldbu/ac"  
 joinheadrs <- with(head2, paste0(head2[1,],head2[2,]) )

newdat <- read.table(text=dat, sep="\t",skip=2)
colnames(newdat)<- joinheadrs
#-------------------
> newdat
   trtcrop biomassMg/ha yieldbu/ac
1       C2        17.76     205.92
2       C2        17.96     207.86
3       CC        17.72     197.22
4       CC        18.42     205.20
5      CCW        18.15     200.51
6      CCW        17.45     190.59
7        P         3.09       0.00
8        P         3.34       0.00
9       S2         5.13      49.68
10      S2         5.36      49.72

使用带有下划线分隔符的粘贴可能会更好:

joinheadrs <- with(head2, paste(head2[1,],head2[2,] ,sep="_")  )
joinheadrs
#[1] "trt_crop"      "biomass_Mg/ha" "yield_bu/ac"  
于 2013-07-22T21:36:50.723 回答
9

其他答案的方法几乎相同,只是缩短为 2 个语句:

dat <- "trt   biomass    yield
crop    Mg/ha    bu/ac
C2      17.76   205.92
C2      17.96   207.86
CC      17.72   197.22
CC      18.42   205.20
CCW     18.15   200.51
CCW     17.45   190.59
P       3.09    0.00
P       3.34    0.00
S2      5.13    49.68
S2      5.36    49.72"

header <- sapply(read.table(text=dat, nrow=2), paste, collapse="_")
result <- read.table(text=dat, skip=2, col.names=header)

结果:

> head(result,2)
  trt_crop biomass_Mg/ha yield_bu/ac
1       C2         17.76      205.92
2       C2         17.96      207.86
...
于 2013-07-22T22:07:22.833 回答
1

一种略有不同的逐步解释方法:

  1. 仅将文件的前两行作为数据读取(无标题):

    headers <- read.table("data.txt", nrows=2, header=FALSE)
    
  2. 使用两个(或更多)第一行创建标题名称,sappy 允许对列进行操作(在本例中为粘贴) -在此处阅读有关 sapply 的更多信息

    headers_names <- sapply(headers,paste,collapse="_")
    
  3. 读取文件的数据(跳过前 2 行):

    data <- read.csv(file="data.txt", skip = 2, header=FALSE)
    
  4. 并将第二步的标题分配给数据:

    names(data) <- headers_names
    

优点是您可以清楚地控制 read.table的参数(例如sep逗号,以及stringAsFactors- 标题和数据)

于 2017-03-10T19:45:43.183 回答
0

这是一个读取多行标题的功能,主要基于Gavin Simpson 的出色回答

该函数默认为逗号分隔值和两行标题,并data.frame以文件中的第一行作为标题返回。

功能:

read.multi.line.header <- function(path, header.lines = 2, sep = ","){

  header <- scan(path, nlines = 1, what = character(), sep = sep)

  data <- read.table(path, skip = header.lines, header = FALSE, sep = sep)

  base::names(data) <- header

  return(data)
}

产生:

mydata <- read.multi.line.header(path = "data.txt")

> head(mydata)
      trt      biomass      yield
1      C2        17.76     205.92
2      C2        17.96     207.86
3      CC        17.72     197.22
4      CC        18.42     205.20
5     CCW        18.15     200.51
6     CCW        17.45     190.59
于 2019-04-26T02:13:40.073 回答