我想了解进行语音识别和文本到语音转换的各种技术。也请让我知道任何资源,如链接、教程、电子书等。
实现它的最有效技术是什么?
有多个狮身人面像。主要活跃的是pocketsphinx和sphinx4。
Sphinx4 是用 Java 编写的。它更适合桌面和 Web 应用程序。
Pocketsphinx 是用 C 语言编写的。它更适合嵌入式设备。有使用它的 iphone/android 应用程序。
听起来你想要pocketsphinx。试试这个教程: http ://www.speech.cs.cmu.edu/sphinx/tutorial.html
在 CMU 的 sourceforge 论坛上可以更好地询问 pocketsphinx/sphinx4 问题。
此外,您应该提供更多信息,例如您打算制作的内容。
至于书籍,语音识别的圣经是《口语处理》
既然你提到了 MS -
您应该只查看Microsoft Speech站点。它包含许多处理语音的资源,包括 TTS 和语音识别。
如果您正在寻找一些实际代码,请查看Sphinx,这是 CMU 的一个开源语音识别项目。它不是用 C++ 编写的,但如果你对算法感兴趣,它实现了一堆你可以从中学习的东西。(我也想回应@dehmann 的观点:阅读隐藏马尔可夫模型。)
如果您对如何处理您的花哨的语音识别感到好奇,您应该阅读:Randy Allen Harris 的语音交互设计
它就何时使用 Voice 以及如何在应用程序中使用它提供了一些很好的建议。