r - 使用 r 进行数据处理

Question

我有一个包含几列的文件 .ped，我想从中提取信息。这是我的数据示例（没有标题）：

第一列表示 ID 家族，第二列表示 ID 个人，第三列表示个人性别。

我将表格读取为数据框

ped <- read.table("pedigree.ped", header=FALSE)

我如何计算存在的家庭数量（一个家庭可以出现不止一次，我想将它们视为一个家庭）？我有一个性别列，其中 1 指定男性和 2 女性，我怎样才能得到数据集中男性和女性的分布？

我是 R 的新手，如果你能提供一些代码！

提前致谢。

score 2 · Accepted Answer

由于您是 R 新手，我建议您先研究一下 excel。您要求的操作相当简单，可以在 excel 中完成。

如果您想使用 R，请查看 data.frame 索引、子集等。

如果您熟悉 SQL，请查看sqldf 包

家庭数量：

numFamilies <- length(unique(ped[,1]))

男女人数：

numMales <- sum(ped[,3] == 1)
numFemales <- sum(ped[,3] == 2)

score 2 · Accepted Answer

2

尝试使用它来探索数据：

For family:
table(ped[,1])

For sex: 
table(ped[,3])

于 2013-04-06T02:14:45.677 回答

2 回答 2