language-agnostic - 如何开始使用语音转文本？

Question

我对语音到文本算法非常感兴趣，但我不确定从哪里开始研究它们。一堆搜索让我找到了这个，但它是从 1996 年开始的，我相当肯定从那时起已经有了改进。

有没有对这类东西有任何经验的人有任何阅读/源代码检查的建议？如果我想进入编写语音识别程序的世界，或者只是关于我应该尝试了解的内容的一般建议（如果您对该领域没有太多了解，有时很难知道要搜索什么）。

编辑：我想做一些跨平台的事情，但目前我的目标是 linux。

编辑 2：感谢 csmba 的深思熟虑的答复。目前，我主要对能够创建允许自动化或通过语音执行不同命令的应用程序感兴趣。因此，可以将有限数量的可识别命令串在一起。一个例子是一个音乐播放器，它接受诸如“Play the album Hello Everything by Squarepusher”之类的命令，或者一个允许用户创建语音快捷方式来启动特定应用程序的应用程序启动器。

我意识到这是一个非常大的问题，而且我现在的知识水平远不及解决实现整个识别引擎所需的知识水平，尽管这样做所涉及的技术让我着迷，这是我想做的事情自己来做。很有可能，我最终可能会拿起一两本关于该主题的书，并在空闲时间学习/玩“简单”的实现。

score 8 · Accepted Answer

这是一个巨大的问题，我不知道如何开始......所以让我试着给你正确的“条款”，这样你就可以改进你的任务：

首先，要了解语音识别是一门多样而复杂的学科，它有许多不同的应用。人们倾向于将此域映射到他们想到的第一件事（通常是计算机理解您在 IVR 系统中所说的内容）。因此，首先让我们将这个概念分为主要类别：

Human-to-Machine：处理理解人类在说什么的应用程序，但人类知道他正在与机器交谈并且语法非常有限。例子是

计算机自动化
专业化：例如飞行员自动化一些控制（噪音是一个大问题）
IVR（交互式语音响应）系统，如 Google-411 或当您致电银行时，对方的计算机会说“说‘服务’以获得客户服务”

人对人（自发语音）：这是一个更大、更复杂的问题。在这里，我们还可以将其分解为不同的应用：

呼叫中心：代理-客户之间的对话，电话质量，压缩
情报：两个或更多人之间的无线电/电话/现场对话

现在，Speech-To-Text 不是你应该说的你关心的。你关心的是解决问题。不同的技术用于解决不同的问题。在此处查看其中一些的概述。总而言之，其他方法是音标、LVCSR 和基于直接的。

另外，你有兴趣成为这项技术的博士吗？您将需要一个涉及信号处理的硕士同等学历，并且可能需要一个 PHd 才能成为前沿。在这种情况下，您将在一家开发实际语音引擎的公司工作。像 Nuance 和 IBM 这样的公司是大公司，但菲利普斯和其他初创公司也存在。

另一方面，如果您想成为实现应用程序的人，您将不会在引擎上工作，而是在构建使用引擎的应用程序。我认为游戏行业的一个很好的类比：您是在开发图形引擎（如 Cry 引擎），还是在开发数百款游戏中的一款，都使用相同的图形引擎？

不要误会我的意思，在世界范围内的 IBM/Nuance 之外，搜索质量还有很多工作要做。该引擎通常非常开放，并且需要进行大量算法调整，这些调整会极大地影响性能。每个业务应用程序都有不同的约束和成本/收益函数，因此您可以进行多年的实验来构建更好的基于语音识别的应用程序。

还有一件事：一般来说，您还希望在堆栈中越低的位置就拥有良好的统计背景。

在这个时间点，我主要对能够创建允许自动化的应用程序感兴趣

好，我们在这里汇合……那你对“语音转文本”没有兴趣。流行语带您进入完全转录的世界，一个您不需要去的地方。您应该关注一些更人机交互的技术，例如 Voice XML 和 IVR 系统中使用的技术（Nuance 是其中最大的参与者）

score 3 · Accepted Answer

如果您是该领域的新手，我绝对会建议您拿起一两本书。我没有这方面的经验，所以我无法提出建议。如果你还在上大学（或仍然有密切的联系），你应该看看你的教授是否可以推荐。

您链接的调查可能也是一个很好的资源。我敢肯定，自 1996 年以来已经取得了一些进步，但基本情况不太可能发生根本性改变。如果调查写得很好，那么值得您花时间阅读它。

score 2 · Accepted Answer

对于 OS X，请查看：OS X Speech Technologies

对于 Windows，请查看：Microsoft Speech API

score 2 · Accepted Answer

我曾使用IBM 的 ViaVoice 产品。它有一个很好的 ASR（自动语音识别）引擎和一个很好的文本到语音引擎。

网站不是很好，但这是嵌入式版本的链接http://www-01.ibm.com/software/voice/support/

虽然它与平台无关，但一切都通过使用 vxml 的 MVC 架构进行，这是用于语音目的的 xml 变体。

score 0 · Accepted Answer

0

你的目标是什么平台？如果适用于 Windows，则可以使用Microsoft Speech API 。

于 2008-08-18T16:14:49.033 回答

score 0 · Accepted Answer

0

还有适用于 Android 的语音识别服务。

于 2014-11-24T09:47:37.973 回答

language-agnostic - 如何开始使用语音转文本？

6 回答 6

Related

Reference