我得到一个数据,该数据由N
一系列可变长度的隐藏变量及其相应的观察变量组成(即,我有每个序列的隐藏变量和观察变量)。
有没有办法找到K
这个数据的“最佳”HMM模型的顺序,而不需要详尽的搜索?(合理的启发式也是合法的)。
我得到一个数据,该数据由N
一系列可变长度的隐藏变量及其相应的观察变量组成(即,我有每个序列的隐藏变量和观察变量)。
有没有办法找到K
这个数据的“最佳”HMM模型的顺序,而不需要详尽的搜索?(合理的启发式也是合法的)。
我认为“顺序”这个词可能会造成混淆:一阶 HMM 是一种 HMM,其转移矩阵仅取决于前一个状态。二阶 HMM 是一种 HMM,其转移矩阵仅取决于前 2 个状态,依此类推。随着顺序的增加,理论变得“更厚”(即方程),并且在主流库中很少实现这种复杂模型的实现。在您最喜欢的浏览器上使用关键字“二阶 HMM”进行搜索将为您带来有关这些模型的有意义的阅读。
如果按顺序表示状态数,并且假设您使用分配给每个状态的单个分布(即,您不使用具有混合分布的 HMM),那么实际上您需要调整的唯一超参数是状态。
您可以使用基于模型似然计算的贝叶斯信息准则、Akaike 信息准则或最小消息长度准则等标准来估计最佳状态数。通常,使用这些标准需要训练多个模型,以便能够计算一些有意义的似然结果进行比较。
如果你只是想对一个K
可能不是最优的好值有一个模糊的概念,k-means 聚类结合解释的方差百分比可以解决问题:如果 X 聚类解释了超过,比如说,90%那么,使用 X 状态 HMM 是一个好的开始。前 3 个标准很有趣,因为它们包含一个与模型参数数量相关的惩罚项,因此可以防止一些过度拟合。
当使用基于混合的 HMM 时,也可以应用这些标准,在这种情况下,有更多的超参数需要调整(即混合模型的状态数和组件数)。