statistics - 二级结构预测的前后向算法

Question

我想使用 HMM（前向后向模型）进行蛋白质二级结构预测。

基本上，使用三态模型：States = {H=alpha helix, B=beta sheet, C=coil}

每个状态的发射概率 pmf 为 1×20（对于 20 个氨基酸）。

在前向后向模型上使用序列“训练集”后，期望最大化收敛于最优转换矩阵（三个状态之间的 3×3）和每个状态的发射概率 pmf。

有谁知道确定转换矩阵和发射概率的“正确”值的序列数据集（最好非常小）。我想在 Excel 中使用该数据集来应用前向后向算法并建立我的信心来确定我是否可以获得相同的结果。

然后转向比 Excel 更原始的东西 :o)

score 0 · Accepted Answer

最好的方法可能是从您决定的分布中生成您自己的模拟数据。然后你运行你的程序，看看参数估计是否收敛到你的已知参数。

在您的情况下，这将涉及编写一个马尔可夫链，该链以某种已知的任意概率（例如，P(Helix to Chain)=0.001）从一个状态变为另一个状态，然后以概率（例如，P(蛋氨酸）=0.11）。对于每一步，打印出状态和排放。然后，您可以观察您的后验概率接近每个站点的状态。

您可以随意设置这些，因为当您运行 HMM 时，您应该收敛到正确的分布。

祝你好运！

1 回答 1