我想使用 HMM(前向后向模型)进行蛋白质二级结构预测。
基本上,使用三态模型:States = {H=alpha helix, B=beta sheet, C=coil}
每个状态的发射概率 pmf 为 1×20(对于 20 个氨基酸)。
在前向后向模型上使用序列“训练集”后,期望最大化收敛于最优转换矩阵(三个状态之间的 3×3)和每个状态的发射概率 pmf。
有谁知道确定转换矩阵和发射概率的“正确”值的序列数据集(最好非常小)。我想在 Excel 中使用该数据集来应用前向后向算法并建立我的信心来确定我是否可以获得相同的结果。
然后转向比 Excel 更原始的东西 :o)