0

假设有两个二进制向量p1p2长度为 20,代表两个父母个体的基因型。

p1 <- sample(c(0,1), 20, replace=T)
p2 <- sample(c(0,1), 20, replace=T)

那么前10个数字代表一条染色体上的等位基因,第二个10个数字代表第二条染色体上的等位基因,即我们正在查看10个双等位基因位点。现在我想生成父母双方的后代个体可以拥有的所有可能的基因型。在假设重组的情况下如何创建这些序列(即,如果从 的 2 个等位基因中选择基因座 i 处的一个等位基因,则p2必须从 i+10 位置的第二个等位基因取自,p1反之亦然)?

4

1 回答 1

1

(注意:我在较早的草稿中将后代计算中的索引弄错了。)

这是基于我上面的评论的解决方案。

library(compositions)

p1 <- matrix(sample(0:1, 20, replace = TRUE), ncol = 2)
p2 <- matrix(sample(0:1, 20, replace = TRUE), ncol = 2)

for (choice1 in 0:1023) {
  p1choices <- bit(choice1, 0:9) + 1
  for (choice2 in 0:1023) {
    p2choices <- bit(choice2, 0:9) + 1
    offspring <- cbind(p1[cbind(1:10, p1choices)], p2[cbind(1:10, p2choices)])
    # record this somehow
  }
}

我省略了记录所有后代基因型的步骤。您可以使用 0:1023 将 的列转换offspring为两个数字

apply(offspring, 2, function(x) sum(x*2^(0:9)))

但由你决定如何处理这些。

编辑添加:

上面的循环产生了大约一百万个后代,但在许多情况下,这不是必需的。如果p1orp2是纯合子(两列中的值相等),则选择哪一个并不重要。使用简单的模型,平均而言,每个亲本中约有一半的基因座是纯合的,因此实际上只需要大约一千个选择。这个版本的代码考虑到了这一点。它更复杂(因此更有可能包含错误!),但速度快了一千倍:

library(compositions)

p1 <- matrix(sample(0:1, 20, replace = TRUE), ncol = 2)
hetero1 <- p1[,1] != p1[,2]
count1 <- sum(hetero1)
p1choices <- rep(1, 10)
p2 <- matrix(sample(0:1, 20, replace = TRUE), ncol = 2)
hetero2 <- p2[,1] != p2[,2]
count2 <- sum(hetero2)
p2choices <- rep(1, 10)

for (choice1 in 0:(2^count1 - 1)) {
  p1choices[hetero1] <- bit(choice1, 0:(count1 - 1)) + 1
  for (choice2 in 0:(2^count2 - 1)) {
    p2choices[hetero2] <- bit(choice2, 0:(count2 - 1)) + 1
    offspring <- cbind(p1[cbind(1:10, p1choices)], p2[cbind(1:10, p2choices)]) 
    # record this somehow
  }
}
于 2018-12-02T17:32:00.127 回答