1

我正在尝试从这里实现一些代码

我已经用我的系数训练了 HMM,但不明白 Viterbi 解码器算法是如何工作的,例如:

 viterbi_decode(MFCC, M, model, q);
 where MFCC = coefficents 
 M = size of MFCC
 model = Model of HMM training using the MFCC coefficients 
 q = unknown (believed to be the outputted path).

但这是我不明白的:我试图比较两个语音信号(训练、样本)以找出最接近的可能匹配。例如,使用 DTW 算法,返回一个整数,然后我可以在其中找到最接近的整数,但是,使用此算法,它返回 a int* array,因此很难区分。

以下是当前程序的工作方式:

vector<DIMENSIONS_2> MFCC = mfcc.transform(rawData, sample_rate);

int N = MFCC.size();
int M = 13;

double** mfcc_setup = setupHMM(MFCC, N, M);

model_t* model = hmm_init(mfcc_setup, N, M, 10);

hmm_train(mfcc_setup, N, model);

int* q = new int[N];

viterbi_decode(mfcc_setup, M, model, q); 

谁能告诉我维特比解码器如何解决识别从训练到输入的最佳路径的问题?我在解码路径上尝试了欧几里得距离和汉明距离,(q)但没有这样的运气。

任何帮助将不胜感激

4

1 回答 1

1

在这个例子中,在我看来 (q) 是隐藏状态序列,因此是从 0->9 的数字列表。如果你有两个音频样本,比如测试和训练,然后生成两个序列 q_test 和 q_train,那么考虑 |q_test - q_train|,其中范数是分量距离,是没有用的,因为它不代表距离的概念正确,因为 HMM 中的隐藏状态标签可能是任意的。

考虑距离的更自然的方法可能是以下,给定 q_train,您对测试样本采用相同路径的概率感兴趣,一旦您拥有转换矩阵和发射概率,您就可以计算该概率。

如果我误解了您的问题,请告诉我。

于 2013-03-14T07:48:13.060 回答