6

我对自举的理解是你

  1. 使用一些算法从序列矩阵(例如核苷酸)构建“树”。
  2. 你存储那棵树。
  3. 从 1 扰动矩阵,并重建树。

我的问题是:从序列生物信息学的角度来看,3 的目的是什么?我可以尝试“猜测”,通过更改原始矩阵中的字符,您可以删除数据中的伪影吗?但我对这个猜测有疑问:我不确定,为什么需要移除这些人工制品。就其本质而言,序列比对应该通过查找长的相似性来处理伪影。

4

2 回答 2

6

自举,在系统发育学和其他地方一样,并不能提高你试图估计的任何东西的质量(在这种情况下是一棵树)。它的作用是让您了解您对从原始数据集中获得的结果有多大信心。引导分析回答了“如果我多次重复这个实验,每次使用不同的样本(但大小相同),我希望多久获得一次相同的结果?”这个问题。这通常按边缘细分(“我希望多久在推断的树中看到这个特定的边缘?”)。

抽样误差

更准确地说,自举是一种近似测量估计中的预期抽样误差水平的方法。大多数进化模型都具有这样的特性,即如果您的数据集有无限数量的站点,则可以保证恢复正确的树和正确的分支长度*。但是对于有限数量的站点,这种保证就消失了。您在这些情况下推断的内容可以被认为是正确的树加上抽样误差,其中抽样误差会随着您增加样本量(站点数量)而减小。我们想知道的是,假设我们有(比如说)1000 个站点,我们应该对每条边期望多少采样误差。

我们想做却做不到的事

假设您使用 1000 个站点的对齐来推断原始树。如果您以某种方式能够对所有分类群的所需站点进行排序,则可以从每个站点中提取另外 1000 个站点并再次执行此树推理,在这种情况下,您可能会得到与原来的树。您可以一次又一次地这样做,每次使用一批新的 1000 个站点;如果你多次这样做,你会产生一个树的分布。这称为估计的抽样分布。一般来说,它在真树附近的密度最高。如果您增加样本量(站点数量),它也会更加集中在真实树周围。

这个分布告诉我们什么?它告诉我们,由这个进化过程(树 + 分支长度 + 其他参数)生成的 1000 个站点的任何给定样本实际上会给我们真正的树的可能性有多大——换句话说,我们对原始分析的信心有多大. 正如我上面提到的,这种获得正确答案的概率可以按边缘分解——这就是“引导概率”。

我们可以做什么

我们实际上并没有能力神奇地生成尽可能多的对齐列,但我们可以“假装”我们这样做,只需将原始的 1000 个站点集合视为一个站点池,从中抽取新批次1000 个站点,每个重复都有重复。这通常会产生与真正的 1000 个站点采样分布不同的结果分布,但对于大型站点计数,近似值是好的。


* 这是假设数据集实际上是根据这个模型生成的——这是我们无法确定的,除非我们正在进行模拟。还有一些模型,比如未校正的简约性,实际上具有矛盾的性质,即在某些条件下,您拥有的站点越多,恢复正确树的概率就越低!

于 2011-10-12T10:12:22.303 回答
1

Bootstrapping是一种通用统计技术,在生物信息学之外有应用。它是一种灵活的方法来处理小样本或来自复杂群体的样本(我想您的应用程序就是这种情况。)

于 2011-10-12T02:26:49.940 回答