neural-network - 简单的语音识别方法

Question

是的，我知道语音识别相当复杂（轻描淡写）。我正在寻找的是一种区分可能20-30 个短语的方法。拆分单词的能力（离散语音很好）会很好，但不是必需的。该软件将取决于用户（即供我使用）。我不是在寻找现有的软件，而是在寻找自己做这件事的好方法。我研究了各种现有的方法，似乎将声音分成音素，虽然很常见，但对我的需求来说有点过分了。

在某些情况下，我只是在寻找一种通过一些简单的语音命令来控制计算机某些方面的方法。我知道 Windows 已经有语音识别软件，但我想自己做一个学习练习。命令很简单，例如“打开 Google”或“静音”。我的想法（不确定这是否是一个好主意）是一些命令是复合的。所以“静音”就是“静音”。而“打开”命令可以单独识别，然后有其后缀（Google、Photoshop 等）。与另一个网络/模型/其他识别。但我不确定以这种方式查找前缀/分词是否会比处理数量增加的单个命令产生更好的结果。

我一直在研究感知器、hopfield 网络（尽管它们在我的理解中有些过时）和 HMM，虽然我理解这些背后的想法（我之前实现过 ANN）但我真的不知道哪个是最适合这项任务。我假设线性向量量化模型也是合适的，但我真的找不到很多关于这方面的文献。任何指导/资源将不胜感激。

score 3 · Accepted Answer

语音识别中有一些开源项目：

HTK（隐马尔可夫模型工具包）
狮身人面像

两者都有解码器、训练、语言模型工具包。构建完整且强大的语音识别器的一切。Voxforge 为这两个开源语音识别工具包提供声学和语言模型。

score 2 · Accepted Answer

前段时间，我读了一篇关于有限词汇系统的白皮书，它使用了一个简单的识别过程。该系统将每个话语分成少量的 bin（如果我没记错的话，时间为 6，幅度为 4，总共 24 个），它所做的只是计算每个 bin 中样本音频测量的数量。有一个模糊逻辑规则库，然后解释每个话语 24 个 bin 计数，并生成一个解释。

我想（对于某些应用程序）一个简单的匹配过程也可以工作，其中当前话语的 24 个 bin 计数与您存储的每个原型的那些简单匹配，并且总体差异最小的是优胜者。

neural-network - 简单的语音识别方法

2 回答 2

Related

Reference