是的,我知道语音识别相当复杂(轻描淡写)。我正在寻找的是一种区分可能20-30 个短语的方法。拆分单词的能力(离散语音很好)会很好,但不是必需的。该软件将取决于用户(即供我使用)。我不是在寻找现有的软件,而是在寻找自己做这件事的好方法。我研究了各种现有的方法,似乎将声音分成音素,虽然很常见,但对我的需求来说有点过分了。
在某些情况下,我只是在寻找一种通过一些简单的语音命令来控制计算机某些方面的方法。我知道 Windows 已经有语音识别软件,但我想自己做一个学习练习。命令很简单,例如“打开 Google”或“静音”。我的想法(不确定这是否是一个好主意)是一些命令是复合的。所以“静音”就是“静音”。而“打开”命令可以单独识别,然后有其后缀(Google、Photoshop 等)。与另一个网络/模型/其他识别。但我不确定以这种方式查找前缀/分词是否会比处理数量增加的单个命令产生更好的结果。
我一直在研究感知器、hopfield 网络(尽管它们在我的理解中有些过时)和 HMM,虽然我理解这些背后的想法(我之前实现过 ANN)但我真的不知道哪个是最适合这项任务。我假设线性向量量化模型也是合适的,但我真的找不到很多关于这方面的文献。任何指导/资源将不胜感激。