-2

我有 3 个数据集 (txt.gz),并且我已经对它们进行了子集化,以仅包含 p 值为 1*10^-6 或更小的观察值。

下一步是检查一个通用名称变量(该名称是指 SNP,遗传学)。

当前表:

name        pval

rs2575876   8.20660e-07

rs11834972  4.20460e-07

rs11050138  4.23080e-07

rs12313631  7.13600e-07

rs485538    5.99060e-07

有任何想法吗?

4

1 回答 1

1

如果我理解正确:

对于名为 b 的数据库,table(b$name) 将让您查看名称重复了多少次。

编辑:试试这个

  1. 创建列出每个数据集中名称的不同值的表

    a2 <- 唯一的(a$names)

    b2 <- 唯一的(b$names)

    c2 <- 唯一的(c$names)

  2. 附加它们

    R1<- rbind(a2,b2,c2)

  3. 检查此表中的重复

    x<- data.frame(表(R1))

  4. 随心所欲地操作数据框。即查找出现在多个数据集中的所有名称

    x[x$names>1,]

于 2013-04-11T15:37:13.427 回答