1

我有一个包含几列的文件 .ped,我想从中提取信息。这是我的数据示例(没有标题):

1  1  1 
1  2  1
2  3  2
3  4  1
3  5  2
...

第一列表示 ID 家族,第二列表示 ID 个人,第三列表示个人性别。

我将表格读取为数据框

ped <- read.table("pedigree.ped", header=FALSE)

我如何计算存在的家庭数量(一个家庭可以出现不止一次,我想将它们视为一个家庭)?我有一个性别列,其中 1 指定男性和 2 女性,我怎样才能得到数据集中男性和女性的分布?

我是 R 的新手,如果你能提供一些代码!

提前致谢。

4

2 回答 2

2

由于您是 R 新手,我建议您先研究一下 excel。您要求的操作相当简单,可以在 excel 中完成。

如果您想使用 R,请查看 data.frame 索引、子集等。

如果您熟悉 SQL,请查看sqldf 包

家庭数量:

numFamilies <- length(unique(ped[,1]))

男女人数:

numMales <- sum(ped[,3] == 1)
numFemales <- sum(ped[,3] == 2)
于 2013-04-06T01:49:18.850 回答
2

尝试使用它来探索数据:

For family:
table(ped[,1])

For sex: 
table(ped[,3])
于 2013-04-06T02:14:45.677 回答