0

我有一个如下所示的数据集:

 ID          Message     
  1                .
  2                .
  3     Click_screen
  4     Blank screen
  5                .
  6                .
  7                .

实际数据集有 48 列和 50,000 行。

使用read.table()导入此数据集是有问题的,因为字符串“Blank screen”在两个子字符串之间有一个空格。例如,我收到如下错误消息:

  Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  : 
     line 4 did not have 48 elements

我想知道是否有任何方法可以规避 R 中的这个问题,而不是更改 Excel 中的原始数据集。

编辑:只是补充一下,我尝试将填充设置为 TRUE,并在下面收到一条错误消息:

 Error in read.table(file.choose(), header = T, fill = T) : 
   duplicate 'row.names' are not allowed
4

2 回答 2

1

这取决于您当地的分隔符,但试试这个

read.table(fileName,fill=TRUE,header=FALSE,sep =';')
于 2012-11-25T01:42:34.367 回答
1

如果文件是空格分隔的(而不是制表符分隔的),您可能需要 read.fwf 以及字段宽度向量。如果文件是制表符分隔的,您可能需要 read.table(sep='\t',...)。

于 2012-11-25T01:47:11.940 回答