3

最初我正在考虑从头开始编写一个语音识别引擎(支持 50-100 个单词)来支持我的母语。

然而,经过一些研究,很明显,即使在 1.5 年内支持非常有限,也无法制造出语音识别引擎。

现在我正在考虑扩展 sphinx 引擎以支持我的语言。是否有可能在 1.5 年内完成,甚至这对于最后一年的项目来说工作量太大了。

我正在焦急地等待你在这件事上的经验。

4

2 回答 2

2

是的,这当然是可能的。我为我的毕业论文做了一个类似的 Chatino 识别器。(Chatino 是墨西哥南部瓦哈卡的土著语言)。识别器包括一个孤立的单词识别器和一个使用 Sphinx4 构建的连续语音识别器。

有关详细信息,请参阅http://www.jaimalayalam.com/papers/chatinoVoiceRecognition09.pdf

于 2013-01-17T00:01:12.037 回答
2

进行语音识别的时间取决于您的应用程序。

你会需要:

  1. 定义您要识别的单词是什么;
  2. 为这些单词编写一个语音词典;
  3. 与几位母语人士一起录制单词;
  4. 验证记录的数据;
  5. 准备数据以训练声学模型;
  6. 产生语法或语言模型(在这种情况下需要记录语音平衡的单词/句子);
  7. 训练声学模型;
  8. 测试你的系统;
  9. 对语法和声学模型进行调整和调整(说话者适应);
  10. 了解如何制作上述所有 9 个主题。:)

第10项是最耗时的任务!!!

答:是的,商业应用可以在 3 个月内完成。

Sphinx 是一种可能性,HTK 是一个优秀的开源语音识别系统,用于训练和测试一个完整的系统。Julius 是一个开源语音识别器(引擎),它使用由 HTK 构建的声学和语言模型。

路易斯·乌贝尔

ASR 实验室 - www.asrlabs.com.br

于 2012-12-13T13:28:54.523 回答