2

我一直在寻找维特比算法的精确逐步示例。

考虑使用输入句子的句子标记为:

The cat saw the angry dog jump

从这里我想生成最可能的输出:

D N V T A N V

我们如何使用 Viterbi 算法使用 trigram-HMM 获得上述输出?

(PS:我正在寻找精确的逐步解释,而不是一段代码或数学表示。假设所有概率都是数字。)

万分感谢!

4

2 回答 2

1

我建议您在其中一本书中查找它,例如 Chris Bishop "Pattern Recognition and Machine Learning"。维特比算法是一个非常基本的东西,并且在文献中已经进行了各种详细程度的描述。

于 2012-09-28T17:00:18.897 回答
1

对于维特比算法和隐马尔可夫模型,首先需要转移概率和发射概率。

在您的示例中,转换概率为 P(D->N),P(N->V),发射概率(假设二元模型)为 P(D|the),P(N|cat)。

当然,在现实世界的例子中,单词比 cat、saw 等要多得多。你必须遍历所有训练数据才能估计 P(D|the)、P(N|cat)、 P(N|汽车)。然后我们使用维特比算法找到最可能的标签序列,例如

D N V T A N V

鉴于你的观察。

这是我对维特比的实现。

def viterbi(vocab, vocab_tag, words, tags, t_bigram_count, t_unigram_count, e_bigram_count, e_unigram_count, ADD_K):
    vocab_size = len(vocab)
    V = [{}]

    for t in vocab_tag:
        # Prob of very first word
        prob = np.log2(float(e_bigram_count.get((words[0],t),0)+ADD_K))-np.log2(float(e_unigram_count[t]+vocab_size*ADD_K))
        # trigram V[0][0]
        V[0][t] = {"prob": prob, "prev": None}

    for i in range(1,len(words)):
        V.append({})
        for t in vocab_tag:
            V[i][t] =  {"prob": np.log2(0), "prev": None}
        for t in vocab_tag:
            max_trans_prob = np.log2(0);
            for prev_tag in vocab_tag:
                trans_prob = np.log2(float(t_bigram_count.get((t, prev_tag),0)+ADD_K))-np.log2(float(t_unigram_count[prev_tag]+vocab_size*ADD_K))   
                if V[i-1][prev_tag]["prob"]+trans_prob > max_trans_prob:
                    max_trans_prob = V[i-1][prev_tag]["prob"]+trans_prob 
                    max_prob = max_trans_prob+np.log2(e_bigram_count.get((words[i],t),0)+ADD_K)-np.log2(float(e_unigram_count[t]+vocab_size*ADD_K))
                    V[i][t] = {"prob": max_prob, "prev": prev_tag}
    opt = []
    previous = None 
    max_prob = max(value["prob"] for value in V[-1].values())
    # Get most probable state and its backtrack
    for st, data in V[-1].items():
        if data["prob"] == max_prob:
            opt.append(st)
            previous = st
            break
    for t in range(len(V) - 2, -1, -1):
        opt.insert(0, V[t + 1][previous]["prev"])
        previous = V[t][previous]["prev"]
    return opt
于 2017-05-09T21:19:01.003 回答