21

如何读取固定宽度格式的大数据?我阅读了这个问题并尝试了一些技巧,但所有答案都是针对分隔数据(如 .csv),这不是我的情况。数据有558MB,不知道多少行。

我在用着:

dados <- read.fwf('TS_MATRICULA_RS.txt', width=c(5, 13, 14, 3, 3, 5, 4, 6, 6, 6, 1, 1, 1, 4, 3, 2, 9, 3, 2, 9, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
    1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 4, 11, 9, 2, 3, 9, 3, 2, 9, 9, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1), stringsAsFactors=FALSE, comment.char='', 
    colClasses=c('integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'character', 'character', 'character',
    'integer', 'integer', 'character', 'integer', 'integer', 'character', 'integer', 'character', 'character', 'character', 'character', 'character', 'character',
    'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character',
    'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character', 'integer',
    'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'character', 'integer', 'integer', 'character', 'character', 'character',
    'character', 'integer', 'character', 'character', 'character', 'character', 'character', 'character', 'character', 'character'), buffersize=180000)

但是读取数据需要 30 分钟(并且还在计数……)。有什么新建议吗?

4

3 回答 3

11

LaF包非常擅长快速读取固定宽度的文件。我每天都用它来加载 +/- 100Mio 记录的文件,其中包含 30 列(没有你拥有的那么多字符列 - 主要是数字数据和一些因素)。而且速度非常快。所以这就是我要做的。

library(LaF)
library(ffbase)
my.data.laf <- laf_open_fwf('TS_MATRICULA_RS.txt', 
                  column_widths=c(5, 13, 14, 3, 3, 5, 4, 6, 6, 6, 1, 1, 1, 4, 3, 2, 9, 3, 2, 9, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 4, 11, 9, 2, 3, 9, 3, 2, 9, 9, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1), stringsAsFactors=FALSE, comment.char='', 
                  column_types=c('integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'categorical', 'categorical', 'categorical',
                               'integer', 'integer', 'categorical', 'integer', 'integer', 'categorical', 'integer', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical',
                               'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical',
                               'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'integer',
                               'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'integer', 'categorical', 'integer', 'integer', 'categorical', 'categorical', 'categorical',
                               'categorical', 'integer', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical', 'categorical'))
my.data <- laf_to_ffdf(my.data.laf, nrows=1000000)
my.data.in.ram <- as.data.frame(my.data)

PS。我开始使用 LaF 包是因为我对 read.fwf 的缓慢感到恼火,而且我最初用于解析数据的 PL/SQL PostgreSQL 代码变得难以维护。

于 2013-09-10T18:37:20.677 回答
11

如果没有足够的数据详细信息,很难给出具体答案,但这里有一些想法可以帮助您入门:

首先,如果您在 Unix 系统上,您可以使用wc命令获取有关文件的一些信息。例如wc -l TS_MATRICULA_RS.txt,将告诉您文件中有多少行,wc -L TS_MATRICULA_RS.txt并将报告文件中最长行的长度。知道这可能很有用。同样,headandtail会让您检查文本文件的第一行和最后 10 行。

其次,一些建议:由于您似乎知道每个字段的宽度,我会推荐两种方法中的一种。

选项一:csvkit+你喜欢的快速读取大数据的方法

csvkit是一组用于处理 CSV 文件的 Python 工具。其中一个工具是in2csv,它将固定宽度格式的文件与“模式”文件相结合,以创建可与其他程序一起使用的适当 CSV。

模式文件本身是一个 CSV 文件,包含三列:(1) 变量名称、(2) 起始位置和 (3) 宽度。一个示例(来自in2csv手册页)是:

    column,start,length
    name,0,30 
    birthday,30,10 
    age,40,3

创建该文件后,您应该可以使用以下内容:

in2csv -f fixed -s path/to/schemafile.csv path/to/TS_MATRICULA_RS.txt > TS_MATRICULA_RS.csv

从那里,我建议研究使用freadfrom "data.table" 或使用sqldf.

选项 2:sqldf使用substr

在像您这样的大型数据文件上使用sqldf实际上应该非常快,并且您可以获得能够准确指定要在使用substr.

同样,这将期望您有一个可用的模式文件,就像上面描述的那样。获得架构文件后,您可以执行以下操作:

temp <- read.csv("mySchemaFile.csv")

## Construct your "substr" command
GetMe <- paste("select", 
               paste("substr(V1, ", temp$start, ", ",
                     temp$length, ") `", temp$column, "`", 
                     sep = "", collapse = ", "), 
               "from fixed", sep = " ")

## Load "sqldf"
library(sqldf)

## Connect to your file
fixed <- file("TS_MATRICULA_RS.txt")
myDF <- sqldf(GetMe, file.format = list(sep = "_"))

由于您知道宽度,因此您可以跳过模式文件的生成。从宽度来看,这只是一点点工作cumsum。这是一个基本示例,建立在第一个示例的基础上read.fwf

ff <- tempfile()
cat(file = ff, "123456", "987654", sep = "\n")
read.fwf(ff, widths = c(1, 2, 3))

widths <- c(1, 2, 3)
length <- cumsum(widths)
start <- length - widths + 1
column <- paste("V", seq_along(length), sep = "")

GetMe <- paste("select", 
               paste("substr(V1, ", start, ", ",
                     widths, ") `", column, "`", 
                     sep = "", collapse = ", "), 
               "from fixed", sep = " ")

library(sqldf)

## Connect to your file
fixed <- file(ff)
myDF <- sqldf(GetMe, file.format = list(sep = "_"))
myDF
unlink(ff)
于 2013-09-10T18:11:01.163 回答
7

这是一个使用新包的纯 R 解决方案readr,由 Hadley Wickham 和 RStudio 团队创建,于 2015 年 4 月发布。更多信息在这里。代码很简单:

library(readr)

my.data.frame <- read_fwf('TS_MATRICULA_RS.txt',
                      fwf_widths(c(5, 13, 14, 3, 3, 5, 4, 6, 6, 6, 1, 1, 1, 4, 3, 2, 9, 3, 2, 9, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 4, 11, 9, 2, 3, 9, 3, 2, 9, 9, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1)),
                      progress = interactive())

的优点read_fwf{readr}

  • readr是基于LaF但速度惊人的。它已被证明是在 R 中读取固定宽度文件的快速方法
  • 它比替代品更简单。例如,您无需担心,column_types因为它们将根据输入的前 30 行进行估算。
  • 它带有一个进度条;)
于 2015-09-28T11:30:35.987 回答