我有一个来自数据库的 csv 文件,格式如下,并尝试使用“read.csv”命令将其导入 R 以进行统计分析。
ID var1 var2 var3 var4 var5 var6
1 one one one one one
NA one one one one
NA one one one
NA one one
NA one
2 two two two two two
NA two two two two
NA two two two two
NA two two
NA two
NA two
3 three three three three three
4 four four four four four
NA four four four four
NA four four four four
NA four four
NA four `
csv 文件记录了许多具有 6 个列变量的主题,但出于演示目的,我获取了 4 个人的数据。变量 var1、var2... 等基本上是文本数据,并且根据该特定变量中的字符数溢出到下一行。溢出到多少行没有特定的模式。下一个对象的数据是在前一个对象的最后一次观察之后开始的。由于这种可变性,即使主题数约为 100,csv 文件也有超过三千行。
现在可以连接原始数据库中的行。谁能建议一种方法将所有记录与每个变量的数据放在一行中?我是 R 相关问题的 stackoverflow 的常客,到目前为止,我找到了解决我遇到的所有其他问题的解决方案,这是我第一次陷入困境。看起来像一个独特的问题!
编辑:一路上没有完全空的行。我没有足够的声誉,无法发布文件的图像!
我发布的数据仅包含 4 个主题,但正如您所见,它在 csv 和读入 R 后都进入 17 行。正如我尝试在原始帖子中解释的那样var1
......var6
是“文本”类型的数据,出于某种原因在它最大化之后,它会溢出到 csv 中的下一行,其中包含空值ID
和其他var(n)
具有较短文本的值。下一个主题的记录在最晚的最后一行之后开始var(n)
。我希望这能解释问题。