研究深度神经网络,特别是 LSTM,我决定按照这个链接中提出的想法:为 LSTM 二进制分类构建语音数据集 来构建分类器。
我有一个基于音频的,其中提取 MFCC 的特征,其中每个数组是 13x56 每个单词的音素。训练数据是这样的:
X = [[phon1fram[1][1], phon1fram[1][2],..., phon1fram[1][56]],
[phon1fram[2][1], phon1fram[2][2],..., phon1fram[2][56]], ....
[phon1fram[15][1], phon1fram[15][2], ..., phon1fram[15][56] ] ]
...
...
[[phon5fram[1][1], phon5fram[1][2],..., phon5fram[1][56]], ... ,
[phon5fram[15][1], phon5fram[15][2], ..., phon5fram[15][56]] ]
在刻字中,第一帧标签肯定会被称为“中介”,而只有最后一帧实际上代表音素?
Y = [[0, 0, ..., 0], #intermediary
[0, 0, ..., 0], ... , #intermediary
[1, 0, ..., 0]] # is one phoneme
[[0, 0, ..., 0], ... #intermediary
[0, 1, ..., 0] # other phoneme
这真的是正确的吗?在第一次测试中,我执行的所有预期都倾向于将这个“中间人”标记为最普遍。可以使用任何其他方法吗?