2

我使用 TraMineR 进行了分析,以测量空间使用序列之间的相似性(例如 Rural(R) 与 Urban (U):序列示例 -> RRRRRUUURRUUU)我的分析中的一个要求是同时比较状态及时,因此我使用了汉明序列相似性。基于相似性矩阵,我创建了一个树状图,给出了各个序列之间的距离,有助于识别顺序空间使用中的“行为相似性”。现在我正在寻找一种方法来计算树的稳健性或可靠性。有人知道如何计算引导树(沿着分支指示引导值)吗?

亲切的问候,

约翰内斯

4

1 回答 1

2

fpc软件包有一个名为的函数clusterboot,可用于评估聚类过程的稳定性。它可以通过以下方式使用:

library(TraMineR)
data(mvad)
##Use some sequence data to illustrate
mvad.alphabet <- c("employment", "FE", "HE", "joblessness", "school", "training")
mvad.labels <- c("employment", "further education", "higher education", "joblessness", "school", "training")
mvad.scodes <- c("EM", "FE", "HE", "JL", "SC", "TR")
mvad.seq <- seqdef(mvad, 17:86, alphabet = mvad.alphabet, states = mvad.scodes, labels = mvad.labels, xtstep = 6)
## Compute Hamming distances
ham <- seqdist(mvad.seq, method="HAM")
library(fpc)
cf2 <- clusterboot(as.dist(ham),clustermethod=disthclustCBI, k=5, cut="number", method="average")
print(cf2)

帮助页面提供了以下clusterboot指南来解释这些值。

有一些理论上的理由认为 Jaccard 相似度值小于或等于 0.5 作为“溶解集群”的指示,参见 Hennig (2008)。一般来说,一个有效的、稳定的集群应该产生 0.75 或更高的平均 Jaccard 相似度值。在 0.6 和 0.75 之间,集群可以被认为是数据中的指示模式,但是哪些点应该属于这些集群是非常值得怀疑的。低于 0.6 的平均 Jaccard 值,集群不应被信任。“高度稳定”的集群应该产生 0.85 及以上的平均 Jaccard 相似度。

具有稳定的聚类过程并不意味着聚类是好的。您可能还对集群质量度量感兴趣。在这种情况下,您可以使用该WeightedCluster软件包,请参见此处: http: //mephisto.unige.ch/weightedcluster/

于 2014-10-01T10:13:28.587 回答