我正在构建一个隐马尔可夫模型来确定某人是在说“是”还是“否”。我已经开发了隐马尔可夫模型,并且从这个页面看到了一个教程:
http://www.cslu.ogi.edu/tutordemos/nnet_recog/recog.html
在本教程中它说:
该图通过假设的概率矩阵跟踪“是”和“否”的搜索路径。即使“否”的分数非常低,如果“是”没有出现在我们的词汇表中,仍然可以找到这个词的最可能路径。Viterbi 搜索可以通过阅读以下伪代码算法来理解(符号取自 Rabiner 的论文,A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition):
我已经阅读了这两篇论文,但我仍然对他们所说的地方感到困惑:
through a hypothetical matrix of probabilities
我的问题是这个概率矩阵来自哪里?例如,我做了以下事情:
- 读入音频文件
- 剥离了不值得考虑的音频信号
- 将需要考虑的信号拆分成块
这意味着我留下了包含音素的块。我已经计算了数据的过零,因此我的观点是:
对于“否”,来自此的数据非常低,
对于“是”,来自此的数据非常高。
所以在例子中(上面给出)它说:
Even though the score for "no" is very low,
那么我可以将零交叉的结果作为我的概率传递吗?我很困惑,希望有人可以帮助我。