我有一个小型命令识别系统,用户首先记录他的命令,然后系统尝试识别它们。前端的特征向量是 MFCC 的系数。后端使用 DTW 进行识别以对齐这些特征向量并输出分数( 0 -> 命令相等)。此设置的问题在于将命令(用户记录的命令)与其他单词区分开来。选择最大分数作为识别命令的阈值不会产生好的结果。我查找了 LDA 和 PCA,目的是将记录的特征投影到不同的特征空间,在那里它们可以更容易分离。每个记录的命令都是一个类,它具有来自与该命令的帧相关联的前端的样本特征向量。由此我计算了 LDA 所需的变换,并将变换应用于每组生成的 MFCC 系数。这并没有让我区分记录的命令和未记录的命令。
我的问题是:
- 应用 LDA 的方法是错误的吗?
- 还有其他更适合我的设置的方法(MFCC + DTW)吗?
非常感谢任何帮助或指导。
谢谢