0

我有一个来自数据库的 csv 文件,格式如下,并尝试使用“read.csv”命令将其导入 R 以进行统计分析。

    ID var1 var2 var3 var4 var5 var6
   1   one   one   one   one   one
  NA   one         one   one   one
  NA   one         one   one      
  NA               one   one      
  NA               one            
   2   two   two   two   two   two
  NA   two   two   two         two
  NA   two   two   two         two
  NA   two         two            
  NA   two                        
  NA   two                        
  3 three three three three three
  4  four  four  four  four  four
 NA  four  four  four        four
 NA  four  four  four        four
 NA              four        four
 NA              four            `

csv 文件记录了许多具有 6 个列变量的主题,但出于演示目的,我获取了 4 个人的数据。变量 var1、var2... 等基本上是文本数据,并且根据该特定变量中的字符数溢出到下一行。溢出到多少行没有特定的模式。下一个对象的数据是在前一个对象的最后一次观察之后开始的。由于这种可变性,即使主题数约为 100,csv 文件也有超过三千行。

现在可以连接原始数据库中的行。谁能建议一种方法将所有记录与每个变量的数据放在一行中?我是 R 相关问题的 stackoverflow 的常客,到目前为止,我找到了解决我遇到的所有其他问题的解决方案,这是我第一次陷入困境。看起来像一个独特的问题!

编辑:一路上没有完全空的行。我没有足够的声誉,无法发布文件的图像!

我发布的数据仅包含 4 个主题,但正如您所见,它在 csv 和读入 R 后都进入 17 行。正如我尝试在原始帖子中解释的那样var1......var6是“文本”类型的数据,出于某种原因在它最大化之后,它会溢出到 csv 中的下一行,其中包含空值ID和其他var(n)具有较短文本的值。下一个主题的记录在最晚的最后一行之后开始var(n)。我希望这能解释问题。

4

0 回答 0