2

我不久前才开始使用 R 作为 Excel 的替代品。我处理的数据库非常大,我需要一个新工具来更好地处理它们。我设法在这个网站上找到了很多关于 R 的答案,这些答案帮助我构建了我的脚本,但是对于一种特定类型的分析无法找到任何结论性的东西。

我的数据如下所示:

Col1   Col2     Col3    ... Col50  

 M    18-24     Single  ... Employed

 F    18-24     Married ... Unemployed

 F    Under 18  Single  ... Employed

通常我处理的数据库甚至有 100,000 行和 30 - 70 列,通常每列不超过 20 个唯一值

我想要的是一个子集输出,它将为我提供每列中每个唯一值的频率计数:

Col1

Variable name / F / M

Frequency / 2 / 1

.....

Col50

Variable name / Employed / Un-employed

Frequency /  2 / 1

谁能至少给我一个提示,我应该寻找什么来计算这些分类值。我需要一个特殊的包裹还是什么?我能够找到一些计算值的函数,但它们只引用数值(如"table()function".

大卫罗杰斯

4

2 回答 2

5

table听起来像你想要的。它将为您提供每个值的出现次数。为了轻松地将表格应用于每一列,我们可以使用 lapply

lapply(your_data, table)
# Example use and output
lapply(mtcars, table)
于 2012-11-09T17:06:39.920 回答
0

如果您使用 summary(mydata) 它应该为您提供每个唯一值在每列中出现的次数的输出。

如果您使用 count(mydata$column.name) ,它将为您提供该列中的唯一值和频率。

您应该能够简单地在所有列中使用轻点来获得您想要的。

于 2018-05-16T15:35:59.740 回答