0

我有一个小型命令识别系统,用户首先记录他的命令,然后系统尝试识别它们。前端的特征向量是 MFCC 的系数。后端使用 DTW 进行识别以对齐这些特征向量并输出分数( 0 -> 命令相等)。此设置的问题在于将命令(用户记录的命令)与其他单词区分开来。选择最大分数作为识别命令的阈值不会产生好的结果。我查找了 LDA 和 PCA,目的是将记录的特征投影到不同的特征空间,在那里它们可以更容易分离。每个记录的命令都是一个类,它具有来自与该命令的帧相关联的前端的样本特征向量。由此我计算了 LDA 所需的变换,并将变换应用于每组生成的 MFCC 系数。这并没有让我区分记录的命令和未记录的命令。

我的问题是:

  • 应用 LDA 的方法是错误的吗?
  • 还有其他更适合我的设置的方法(MFCC + DTW)吗?

非常感谢任何帮助或指导。

谢谢

4

1 回答 1

1

此设置的问题在于区分未记录的命令。

您可能想要更好地表达您想要将您正在寻找的关键字与所有其他可能的单词分开。目前尚不清楚“未记录”是什么意思

应用 LDA 的方法是错误的吗?

没有错,没有意义。PCA 优化了不同的特性,但绝不可能改善分离。

选择最大分数作为识别命令的阈值不会产生好的结果。

这种方法不是最好的方法,但它应该工作得相对好。多年来,它被证明了。您可能只是在它的实现或测试中犯了一个错误,或者还有其他一些错误。我建议你重新审视它。

您唯一需要知道的是阈值必须取决于模板关键字。所以对于不同的模板关键字阈值必须不同。单一的阈值是行不通的。

于 2013-04-24T14:32:18.010 回答