algorithm - 基于生物数据的马尔可夫链和随机游走

Question

我来自生物学领域，因此我在理解（直觉上？）该论文的一些想法时遇到了一些困难。我真的尽力通过使用大量的google和youtube逐步破译它，但现在我觉得，是时候参考该领域的专业人士了。

在用（无序的）问题填满整个宇宙之前，让我把整个事情放下来，试着向你介绍这个主题，同时向你解释我到目前为止从我的研究中得到了什么。

微阵列

对于那些不知道这是什么的人，您可以想象，它实际上是一个阵列（矩阵），其中每个细胞都包含一个针对特定基因的探针。长话短说，在微阵列实验结束时，您有一个矩阵（在计算方面），每列代表一个样本，每行代表一个不同的基因，而矩阵的内容代表每个基因的表达值样本。

在生物学通路/基因组中，它们称为一组相互相互作用的基因，形成一个负责特定功能的小网络。这些通路不是孤立的，但它们也相互交谈/相互作用。这篇论文首先做的是扩展初始通路（让我们称之为目标通路），包括来自可能与之相互作用的其他通路的一些其他基因。

1. 现在假设我们有一个矩阵 G x S。其中 G 代表基因，S 代表样本。我们使用基因对之间的皮尔逊相关系数 ( a )作为权重来构建基因共表达网络 (G x G )。这也可以表示为无向加权图。 $G = (V,E)$ .

2. 对于每个基因（行或列），我们计算加权度（d），它只不过是该基因所有相关系数的总和。

3. 从前面的两个矩阵中，他们构造了转换矩阵，通过使用

$P_{ij} = \frac{a_{ij}}{d_i}$ 公式

Q1。他们为什么称这种转换概率？是否有任何直观的方法可以将其视为生物学背景下的概率？

4. 由于我们有整个转换矩阵，我们可以定义初始的子网络，我们想要扩展它，它由 15 个基因组成。在该步骤中，他们使用了公式 3（在纸上），它按照它所说的那样转换了初始转换矩阵的值。他们将属于所选子网络的节点的概率设置为1，因为它们将它们定义为吸收状态。

Q2。在同一个公式（3）中，我无法理解第二个条件的作用。 $0\ i\in S \setminus \left \{ x \right \} and\ i \neq j$ 什么时候概率应该为0？直觉上，在我看来，子网中不存在的所有节点都应该有 P_ij 值作为概率。

5.之后，论文中的公式（4）显示了新构建的转移矩阵，我通过这篇优秀的文章设法理解了它。

6. 对我来说，这一切都变得越来越模糊，也是我最需要帮助的地方。我在那一步的想象是，算法从一个节点随机开始，并继续在网络中走动。为了构造一个相关函数（这到底是什么意思？），他们首先计算一个称为访问一个节点/边 E(i,j) 的联合概率的概率，并记为：

$P [X_k = i,X_{k+1} = j, L|X_0 = x]$

另一方面，他们似乎计算了另一个概率，称为从 x 开始的长度为 L 的步行概率，并表示为：

$P[ L|X_0 = x]$

7. 在下一步中，他们将之前计算的概率相除，并使用从 i 到 j 的转换计算随机游走在 x 中开始的次数，我不太明白这是什么意思。

在那一步之后，我完全失去了他们的推理：-P。

我不指望专家会敞开心扉让我理解这个程序。我期待的是一些指导方针、提示、想法、有用的资源或更直观的方法来理解整个过程。然后当我完全理解它时，我会尝试在 R 或 python 上实现它。

所以欢迎任何想法/批评。

谢谢。