这是一个巨大的问题,我不知道如何开始......所以让我试着给你正确的“条款”,这样你就可以改进你的任务:
首先,要了解语音识别是一门多样而复杂的学科,它有许多不同的应用。人们倾向于将此域映射到他们想到的第一件事(通常是计算机理解您在 IVR 系统中所说的内容)。因此,首先让我们将这个概念分为主要类别:
Human-to-Machine:处理理解人类在说什么的应用程序,但人类知道他正在与机器交谈并且语法非常有限。例子是
- 计算机自动化
- 专业化:例如飞行员自动化一些控制(噪音是一个大问题)
- IVR(交互式语音响应)系统,如 Google-411 或当您致电银行时,对方的计算机会说“说‘服务’以获得客户服务”
人对人(自发语音):这是一个更大、更复杂的问题。在这里,我们还可以将其分解为不同的应用:
- 呼叫中心:代理-客户之间的对话,电话质量,压缩
- 情报:两个或更多人之间的无线电/电话/现场对话
现在,Speech-To-Text 不是你应该说的你关心的。你关心的是解决问题。不同的技术用于解决不同的问题。在此处查看其中一些的概述。总而言之,其他方法是音标、LVCSR 和基于直接的。
另外,你有兴趣成为这项技术的博士吗?您将需要一个涉及信号处理的硕士同等学历,并且可能需要一个 PHd 才能成为前沿。在这种情况下,您将在一家开发实际语音引擎的公司工作。像 Nuance 和 IBM 这样的公司是大公司,但菲利普斯和其他初创公司也存在。
另一方面,如果您想成为实现应用程序的人,您将不会在引擎上工作,而是在构建使用引擎的应用程序。我认为游戏行业的一个很好的类比:您是在开发图形引擎(如 Cry 引擎),还是在开发数百款游戏中的一款,都使用相同的图形引擎?
不要误会我的意思,在世界范围内的 IBM/Nuance 之外,搜索质量还有很多工作要做。该引擎通常非常开放,并且需要进行大量算法调整,这些调整会极大地影响性能。每个业务应用程序都有不同的约束和成本/收益函数,因此您可以进行多年的实验来构建更好的基于语音识别的应用程序。
还有一件事:一般来说,您还希望在堆栈中越低的位置就拥有良好的统计背景。
在这个时间点,我主要对能够创建允许自动化的应用程序感兴趣
好,我们在这里汇合……那你对“语音转文本”没有兴趣。流行语带您进入完全转录的世界,一个您不需要去的地方。您应该关注一些更人机交互的技术,例如 Voice XML 和 IVR 系统中使用的技术(Nuance 是其中最大的参与者)