5

我正在使用最佳匹配算法在 TraMineR 中进行序列分析。不幸的是,由于右删失数据,我的序列长度不等。我的序列的最小长度为 5,最大长度为 11。长度的变化对于我感兴趣的序列之间的差异没有意义。因此,我想将不等长度对序列之间的整体差异的影响保持为尽可能小。

我在 Stovel 和 Bolan (2004 (1)) 中读到了一个可能的解决方案,他们根据序列是否相等长度使用可变插入缺失成本。因此,对于等长的序列,他们使用固定的插入缺失成本,而对于不等的长度,他们使用降低的成本,“大约是固定成本的四分之一”。

我的问题是: 一般来说,应该如何在 TraMineR 中对缺失进行编码?作为无效元素还是我应该在字母表中包含缺失的状态?TraMineR 中是否有一个选项来应用可变插入删除成本,正如 Stovel 和 Bolan 所介绍的那样?如果是,如何做到这一点?


(1) 斯托维尔、凯瑟琳和马克·博兰。2004.“住宅轨迹:使用最佳对齐来揭示住宅流动性的结构。” 社会学方法与研究 32(4):559-598。

4

1 回答 1

4

目前,无法使用可变插入缺失成本(取决于序列是否等长)。我对这种方法持怀疑态度,因为如果我理解得很好,距离度量的定义会根据所涉及的序列而变化(因为 indel 成本会发生变化)。因此,不尊重三角不等式。从概念的角度来看,我认为我们应该始终使用相同的比较标准,从而使用相同的距离定义。

于 2013-09-25T08:00:05.317 回答