markov-chains - 在概率后缀树的序列中，“e”出现在哪里？

Question

*在我的数据中，序列右侧只有缺失的数据 ( )。这意味着没有序列以开头，*并且没有序列在之后有任何其他标记*。尽管如此，PST（概率后缀树）似乎预测有 90% 的机会以*. 这是我的代码：

# Load libraries
library(RCurl)
library(TraMineR)
library(PST)

# Get data
x <- getURL("https://gist.githubusercontent.com/aronlindberg/08228977353bf6dc2edb3ec121f54a29/raw/c2539d06771317c5f4c8d3a2052a73fc485a09c6/challenge_level.csv")
data <- read.csv(text = x)

# Load and transform data
data <- read.table("thread_level.csv", sep = ",", header = F, stringsAsFactors = F)

# Create sequence object
data.seq <- seqdef(data[2:nrow(data),2:ncol(data)], missing = NA, right= NA, nr = "*")

# Make a tree
S1 <- pstree(data.seq, ymin = 0.05, L = 6, lik = TRUE, with.missing = TRUE)

# Look at first state
cmine(S1, pmin = 0, state = "N3", l = 1)

这会产生：

[>] context: e 
            EX         FA         I1         I2          I3          N1              N2          N3        NR
S1 0.006821066 0.01107234 0.01218274 0.01208756 0.006821066 0.002569797     0.003299492 0.001554569 0.0161802
           QU          TR         *
S1 0.01126269 0.006440355 0.9097081

*出现0.9097081在序列开头的概率如何，即在上下文之后e？

这是否意味着上下文可以出现在序列中的任何位置，并且e表示序列中某处的任意起点？

score 2 · Accepted Answer

PST 是可变长度马尔可夫模型 (VLMC) 的表示。作为经典马尔可夫模型，VLMC 被假定为同质（或平稳），这意味着在给定上下文的情况下，结果的条件概率在序列中的每个位置都是相同的。换句话说，上下文可以出现在序列中的任何位置。实际上，上下文的搜索是通过探索应该应用于序列中任何位置的树来完成的。

在您的示例中，对于l=1（l是 1 + 上下文的长度），您只查找 0 长度的上下文，即唯一可能的上下文是空序列e。您的条件pmin=0, state=N3（对于的概率大于 0 N3）相当于根本没有条件。所以你得到了观察每个状态的总体概率。因为您的序列（缺少状态）都是相同的长度，所以使用TraMineRwith会得到相同的结果

seqmeant(data.seq, with.missing=TRUE)/max(seqlength(data.seq))

要获得第一个位置的分布，您可以使用TraMineR并查看在返回的连续位置的横截面分布表的第一列

seqstatd(data.seq, with.missing=TRUE)

希望这可以帮助。

markov-chains - 在概率后缀树的序列中，“e”出现在哪里？

1 回答 1

Related

Reference