r - 读取固定宽度的文本文件

Question

我正在尝试将这个格式丑陋的数据集加载到我的 R 会话中： http ://www.cpc.ncep.noaa.gov/data/indices/wksst8110.for

Weekly SST data starts week centered on 3Jan1990

Nino1+2      Nino3        Nino34        Nino4
Week          SST SSTA     SST SSTA     SST SSTA     SST SSTA 
03JAN1990     23.4-0.4     25.1-0.3     26.6 0.0     28.6 0.3 
10JAN1990     23.4-0.8     25.2-0.3     26.6 0.1     28.6 0.3 
17JAN1990     24.2-0.3     25.3-0.3     26.5-0.1     28.6 0.3

到目前为止，我可以阅读这些行

  x = readLines(path)

但是该文件将“空白”与“-”混合作为分隔符，我不是正则表达式专家。我感谢任何帮助将其变成一个漂亮而干净的 R 数据框。谢谢！

score 189 · Accepted Answer

这是一个固定宽度的文件。用来read.fwf()阅读它：

x <- read.fwf(
  file=url("http://www.cpc.ncep.noaa.gov/data/indices/wksst8110.for"),
  skip=4,
  widths=c(12, 7, 4, 9, 4, 9, 4, 9, 4))

head(x)

            V1   V2   V3   V4   V5   V6   V7   V8  V9
1  03JAN1990   23.4 -0.4 25.1 -0.3 26.6  0.0 28.6 0.3
2  10JAN1990   23.4 -0.8 25.2 -0.3 26.6  0.1 28.6 0.3
3  17JAN1990   24.2 -0.3 25.3 -0.3 26.5 -0.1 28.6 0.3
4  24JAN1990   24.4 -0.5 25.5 -0.4 26.5 -0.1 28.4 0.2
5  31JAN1990   25.1 -0.2 25.8 -0.2 26.7  0.1 28.4 0.2
6  07FEB1990   25.8  0.2 26.1 -0.1 26.8  0.1 28.4 0.3

更新

该软件包readr（2015 年 4 月发布）提供了一种简单快速的替代方案。

library(readr)

x <- read_fwf(
  file="http://www.cpc.ncep.noaa.gov/data/indices/wksst8110.for",   
  skip=4,
  fwf_widths(c(12, 7, 4, 9, 4, 9, 4, 9, 4)))

速度比较：比 .readr::read_fwf()快约 2 倍utils::read.fwf ()。

score 56 · Accepted Answer

另一种确定宽度的方法...

df <- read.fwf(
  file=url("http://www.cpc.ncep.noaa.gov/data/indices/wksst8110.for"),
  widths=c(-1, 9, -5, 4, 4, -5, 4, 4, -5, 4, 4, -5, 4, 4),
  skip=4
)

widths 参数中的 -1 表示应该忽略一个单字符列，widths 参数中的 -5 表示应该忽略一个五字符列，同样...

参考：https ://www.inkling.com/read/r-cookbook-paul-teetor-1st/chapter-4/recipe-4-6

score 20 · Accepted Answer

首先，这个问题直接来自 Leeks 的 Coursera“获取数据并清理它”课程。虽然问题的另一部分，但困难的部分是阅读文件。

也就是说，该课程主要用于学习。

我讨厌 R 的固定宽度程序。它很慢，并且对于大量变量，否定某些列等很快就会变得很痛苦。

我认为它更易于使用readLines()，然后从该用途substr()中生成变量

x <- readLines(con=url("http://www.cpc.ncep.noaa.gov/data/indices/wksst8110.for"))

# Skip 4 lines
x <- x[-(1:4)]

mydata <- data.frame(var1 = substr(x, 1, 10),
                     var2 = substr(x, 16, 19),
                     var3 = substr(x, 20, 23),
                     var4 = substr(x, 29, 32)  # and so on and so on
                     )

score 13 · Accepted Answer

您现在可以使用read_fwf()Hadley Wickhamreadr包中的函数。

公告：http : //blog.rstudio.org/2015/04/09/readr-0-1-0/
开发页面：https ://github.com/hadley/readr
CRAN 页面：http ://cran.r-project.org/web/packages/readr/index.html

与 base 相比，预计会有巨大的性能提升read.fwf()。

score 5 · Accepted Answer

我在这里记录了在 R 中读取固定宽度文件的替代方案列表，并提供了一些最快的基准。

我首选的方法是结合fread; stringi它作为最快的方法具有竞争力，并且具有将数据存储为的额外好处（IMO）data.table：

library(data.table)
library(stringi)

col_ends <- 
  list(beg = c(1, 10, 15, 19, 23, 28, 32, 36,
               41, 45, 49, 54, 58),
       end = c(9, 14, 18, 22, 27, 31, 35,
               40, 44, 48, 53, 57, 61))

data = fread(
  "http://www.cpc.ncep.noaa.gov/data/indices/wksst8110.for", 
  header = FALSE, skip = 4L, sep = NULL
  )[, lapply(1:(length(col_ends$beg)),
             function(ii) 
               stri_sub(V1, col_ends$beg[ii], col_ends$end[ii]))
    ][ , paste0("V", c(2, 5, 8, 11)) := NULL]
#              V1   V3   V4   V6   V7   V9  V10  V12  V13
#    1: 03JAN1990 23.4 -0.4 25.1 -0.3 26.6  0.0 28.6  0.3
#    2: 10JAN1990 23.4 -0.8 25.2 -0.3 26.6  0.1 28.6  0.3
#    3: 17JAN1990 24.2 -0.3 25.3 -0.3 26.5 -0.1 28.6  0.3
#    4: 24JAN1990 24.4 -0.5 25.5 -0.4 26.5 -0.1 28.4  0.2
#    5: 31JAN1990 25.1 -0.2 25.8 -0.2 26.7  0.1 28.4  0.2
#   ---                                                  
# 1365: 24FEB2016 27.1  0.9 28.4  1.8 29.0  2.1 29.5  1.4
# 1366: 02MAR2016 27.3  1.0 28.6  1.8 28.9  1.9 29.5  1.4
# 1367: 09MAR2016 27.7  1.2 28.6  1.6 28.9  1.8 29.6  1.5
# 1368: 16MAR2016 27.5  1.0 28.8  1.7 28.9  1.7 29.6  1.4
# 1369: 23MAR2016 27.2  0.9 28.6  1.4 28.8  1.5 29.5  1.2

请注意，fread自动去除前导和尾随空格 - 有时，这是不可取的，在这种情况下 set strip.white = FALSE.

我们也可以ww通过执行以下操作从列宽向量开始：

ww <- c(9, 5, 4, 4, 5, 4, 4, 5, 4, 4, 5, 4, 4)
nd <- cumsum(ww)

col_ends <-
  list(beg = c(1, nd[-length(nd)]+1L),
       end = nd)

我们可以通过使用负索引来选择更稳健地排除哪些列，例如：

col_ends <- 
  list(beg = c(1, -10, 15, 19, -23, 28, 32, -36,
               41, 45, -49, 54, 58),
       end = c(9, 14, 18, 22, 27, 31, 35,
               40, 44, 48, 53, 57, 61))

然后在下一行替换col_ends$beg[ii]为和：abs(col_ends$beg[ii])

paste0("V", which(col_ends$beg < 0))

最后，如果您还希望以编程方式读取列名，您可以使用以下命令进行清理readLines：

cols <-
  gsub("\\s", "", 
       sapply(1:(length(col_ends$beg)),
              function(ii) 
                stri_sub(readLines(URL, n = 4L)[4L], 
                         col_ends$beg[ii]+1L,
                         col_ends$end[ii]+1L)))

cols <- cols[cols != ""]

（请注意，将此步骤与合并fread需要创建表的副本以删除标题行，因此对于大型数据集效率低下）

score 4 · Accepted Answer

我对 R 一无所知，但我可以为您提供一个匹配这些行的正则表达式：

\s[0-9]{2}[A-Z]{3}[0-9]{4}(\s{5}[0-9]+\.[0-9]+[ -][0-9]+\.[0-9]+){4}

r - 读取固定宽度的文本文件

6 回答 6

Related

Reference