8

我有一个 22268 行乘 2521 列的文件。当我尝试使用这行代码读取文件时:

file <- read.table(textfile, skip=2, header=TRUE, sep="\t", fill=TRUE, blank.lines.skip=FALSE)

但我只读入 13024 行乘 2521 列,并出现以下错误:

警告消息:在 scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, : 读取的项目数不是列数的倍数

我还使用此命令查看哪些行的列数不正确:

x <-count.fields(textfile, sep="\t", skip=2)
incorrect <- which(x != 2521)

并取回了大约 20 行不正确的列表。

有没有办法用 NA 值填充这些行?

我认为这就是 read.table 函数中“填充”参数的作用,但事实并非如此。

或者

有没有办法忽略在“不正确”变量中标识的这些行?

4

1 回答 1

5

您可以使用readLines()输入数据,然后找到有问题的行。

    con <- file("path/to/file.csv", "rb")
    rawContent <- readLines(con) # empty
    close(con)  # close the connection to the file, to keep things tidy

然后看看rawContent

要查找列数不正确的行,例如:

    expectedColumns <- 2521
    delim <- "\t"

    indxToOffenders <-
    sapply(rawContent, function(x)   # for each line in rawContent
        length(gregexpr(delim, x)[[1]]) != expectedColumns   # count the number of delims and compare that number to expectedColumns
    ) 

然后读入您的数据:

  myDataFrame <- read.csv(rawContent[-indxToOffenders], header=??, sep=delim)
于 2012-12-03T23:09:58.197 回答