我有一个 .txt 文件并且正在使用 Rstudio。
200416657210340 1665721 20040608 20090930 20060910 20070910 20080827 20090804
200416657210345 1665721 20040907 20090203 20070331 20080719
200416657210347 1665721 20040914 20091026 20070213 20080114 20090302
200416657210352 1665721 20041111 20100315 20070123 20071205 20081202
我正在尝试使用 read.fwf 读取 .txt 文件:
gripalisti <- read.fwf(file = "gripalisti.txt",
widths = c(15,8,9,9,9,9,9,9),
header = FALSE,
#stringsAsFactors = FALSE,
col.names = c("einst","bu","faeding","forgun","burdur1",
"burdur2","burdur3","burdur4"))
这可行,并且列的长度正确。然而,“einst”和“bu”应该是整数值,其余的应该是日期。
导入第一列(ID 变量)中的所有值时,如下所示:
2.003140e+14
我一直在尝试寻找将导入的列更改为整数(或字符?)值的方法,但我没有发现任何不会导致错误的内容。一个例子,我在谷歌之后尝试过:
gripalisti <- read.fwf(file = "gripalisti.txt",
widths = c(15,8,9,9,9,9,9,9),
header = FALSE,
#stringsAsFactors = FALSE,
col.names = c("einst","bu","faeding","forgun","burdur1",
"burdur2","burdur3","burdur4"),
colclasses = c("integer", "integer", "Date", "Date",
"Date", "Date", "Date", "Date"))
导致错误:
Error in read.table(file = FILE, header = header, sep = sep, row.names = row.names, :
unused argument (colclasses = c("integer", "integer", "Date", "Date", "Date", "Date", "Date", "Date"))
数据集中有许多超过 100.000 行的缺失值。所以其他导入方式对我不起作用。数据集不是制表符分隔的。
对不起,如果这很明显,我是一个非常新的 R 用户。
编辑:
感谢您的帮助,我将其更改为:
colClasses = c("character",
现在看起来不错。