13

算法设计者难以解决的这个主题有什么困难?

真的有那么复杂吗?

我很难理解为什么这个话题如此成问题。谁能给我一个例子说明为什么会这样?

4

21 回答 21

40

听觉处理是一项非常复杂的任务。人类进化产生了一个非常好的系统,以至于我们没有意识到它有多好。如果三个人同时与您交谈,您将能够专注于一个信号而忽略其他信号,即使它们的声音更大。噪音也被很好地丢弃了。事实上,如果你听到倒放的人声,听觉系统的第一阶段会将此信号发送到与真实语音信号不同的处理区域,因为系统会将其视为“无声”。这是人类具有卓越能力的一个例子。

语音识别从 70 年代开始迅速发展,因为研究人员正在研究语音的产生。这是一个更简单的系统:声带是否兴奋,声带的共鸣……这是一个易于理解的机械系统。这种方法的主要产品是倒谱分析。这导致自动语音识别 (ASR) 达到可接受的结果。但这是一种次优方法。噪音分离非常糟糕,即使它或多或少地在干净的环境中工作,它也不会像人类那样在嘈杂的背景音乐中工作。

最佳方法取决于对听觉系统的理解。它在耳蜗的第一阶段,下丘......但也涉及大脑。而我们对此知之甚少。这是一个艰难的范式转变。

Hynek Hermansky 教授在一篇论文中将研究的现状与人类想要飞行的时候进行了比较。我们不知道秘密是什么——羽毛?翅膀扇动?——直到我们发现伯努利的力量。

于 2009-12-06T00:24:41.930 回答
37

因为如果人们发现很难理解其他口音很重的人,为什么你认为计算机会更好呢?

于 2009-07-09T09:56:29.127 回答
18

我记得读到微软有一个致力于语音识别的团队,他们称自己为“Wreck a Nice Beach”团队(他们自己的软件给他们起的名字)。

要将语音真正转化为文字,并不像映射离散的声音那么简单,还必须了解上下文。该软件需要在其中编码一生的人类经验。

于 2009-07-09T10:15:52.177 回答
9

这种问题比仅语音识别更普遍。它还存在于视觉处理、自然语言处理、人工智能……

语音识别受语义差距问题的影响:

语义差距通过不同的语言表示,例如语言或符号来表征对象的两种描述之间的差异。在计算机科学中,只要将普通的人类活动、观察和任务转换为计算表示,这个概念就相关

音频波形和文字之间,差距很大,

在这个词和它的含义之间,它更大......

于 2009-07-09T10:30:11.697 回答
6

beecos iyfe peepl 很难理解 uvver peepl wif e strang acsent wie doo yoo fink compootrs wyll bee ani bettre ayt it?

我敢打赌,你花了半秒钟才能弄清楚我到底在打字什么,而我所做的只是用不同的“口音”重复西蒙斯的回答。处理能力还没有,但它已经到了。

于 2009-07-09T10:00:44.720 回答
6

语言的多样性将是主要因素,这使它变得困难。方言和口音会使这更加复杂。还有,语境。书读完了。这本书是红色的。你如何确定差异。为此所需的额外努力将使首先键入内容变得更容易。

现在,如果更有必要,可能会为此付出更多努力,但其他形式的数据输入的进展如此之快,以至于认为没有必要。

当然,在某些领域它会很棒,甚至非常有用或有帮助。手忙脚乱或无法查看屏幕进行输入的情况。帮助残疾人等。但其中大多数是有自己解决方案的利基市场。也许其中一些正在朝着这个方向努力,但大多数使用计算机的环境都不是语音识别的良好候选者。我更喜欢安静的工作环境。对计算机无休止的喋喋不休会使串扰成为现实问题。

最重要的是,除非您向计算机口述散文,否则使用键盘、鼠标或触摸任何其他类型的输入都更容易、更快捷。我曾经尝试过使用语音输入进行编码。整个过程从头到尾都很痛苦。

于 2009-07-09T10:02:30.283 回答
3

基本问题是人类语言是模棱两可的。因此,为了理解语音,计算机(或人类)需要理解所讲内容的上下文。该上下文实际上是说话者和听众所居住的物理世界。而且还没有任何人工智能程序证明对物理世界有深入的了解。

于 2009-07-09T10:27:16.473 回答
3

因为Lernout&Hauspie破产了 :)

(对不起,作为比利时人我无法抗拒)

于 2009-07-09T10:09:54.590 回答
2

语音合成本身就非常复杂——许多参数组合起来形成最终的语音。即使对人们来说,将其分开也很困难——有时你把一个词听错了。

于 2009-07-09T10:00:01.320 回答
1

大多数时候,我们人类是根据上下文来理解的。因此,一个特定的句子与整个对话很协调,不幸的是计算机在这个意义上有很大的障碍。它只是试图捕捉单词而不是它之间的内容。

我们会理解一个英语口音很差的外国人可能会猜测他想说什么,而不是他实际上在说什么。

于 2009-07-09T10:06:29.887 回答
1

要很好地识别语音,您需要知道人们的意思——而计算机还没有出现。

于 2009-07-09T10:08:46.573 回答
1

我曾经向我的导师问过类似的问题;我问他一些问题,比如制作语音到文本转换器有什么挑战。在他给出的答案中,他要求我发音“p”和“b”。然后他说一开始他们有很短的时间不同,然后听起来很相似。我的观点是,很难识别出什么声音,识别声音会更难。另外,请注意,一旦您录制了人们的声音,您存储的只是数字。想象一下,试图找到诸如口音、频率和其他参数等指标,这些指标有助于从除了数字矩阵之类的输入中识别语音。计算机擅长数字处理等,但语音并不是真正的“数字”。您需要将语音编码为数字,然后对其进行所有计算。

于 2009-07-09T10:18:55.557 回答
1

我希望谷歌在未来会取得一些进步,因为他们通过 1-800-GOOG411 收集语音数据

于 2009-07-16T05:37:22.417 回答
1

你自己说过,算法设计者正在研究它……但语言和语音不是算法结构。它们是高度复杂的人类系统发展的高峰,涉及概念、元概念、句法、异常、语法、调性、情感、神经元以及激素活动等。

语言需要一种高度启发式的方法,这就是为什么进展缓慢且前景可能不太乐观的原因。

于 2009-07-09T10:13:14.833 回答
0

如果语音识别的 MIPS 比人脑少得多,那么我们真的可以与动物交谈。

如果不需要它们完成这项工作,进化就不会将所有这些卡路里消耗在灰质上。

于 2009-07-09T10:27:22.293 回答
0

这不是我的领域,但我相信它正在进步,只是慢慢地。

而且我相信西蒙的回答在某种程度上是正确的:部分问题是没有两个人在计算机被编程识别的模式方面说得一样。因此,很难分析语音。

于 2009-07-09T10:01:11.613 回答
0

计算机一开始甚至不擅长自然语言处理。他们很擅长匹配,但在推断方面,它变得很棘手。

然后,试图从数百个不同的口音/变形中找出同一个词,它突然看起来并不那么简单。

于 2009-07-09T10:06:21.510 回答
0

问题是有两种类型的语音识别引擎。像Dragon这样受过演讲训练的人很适合听写。他们可以以相当好的准确度识别几乎任何语音文本,但需要 (a) 用户培训,以及 (b) 一个好的麦克风。

与说话者无关的语音记录引擎最常用于电话中。它们不需要用户进行“培训”,但必须提前确切知道预期的单词。创建这些语法(并处理错误)的应用程序开发工作是巨大的。由于我们公共电话网络的历史限制,电话的带宽限制在 4Khz。这种有限的音频质量极大地阻碍了语音记录引擎“听到”人们在说什么的能力。诸如“六”或“七”之类的数字包含引擎特别难以区分的 ssss 声音。这意味着识别数字字符串是最基本的识别任务之一,是有问题的。加上地方口音,其中“九”在某些地方发音为“南”,准确性确实受到影响。

最好的希望是结合图形和语音记录的界面。想一想您可以通过语音控制的 iPhone 应用程序。

于 2009-12-06T00:04:14.977 回答
0

口语是上下文敏感的,模棱两可的。计算机不能很好地处理模棱两可的命令。

于 2009-07-09T15:25:09.780 回答
0

好吧,我在 G1 上安装了 Google 语音搜索,效果非常好。答案是,这个领域正在进步,但你只是没有注意到!

于 2009-07-09T10:10:07.523 回答
0

我不同意问题中的假设——我最近被介绍到微软的语音识别并印象深刻。它可以在几分钟后学习我的声音,并且通常可以正确识别常用词。它还允许添加新单词。它当然可以用于我的目的(理解化学)。

区分识别(单词)标记和理解它们的含义。

我还不知道其他语言或操作系统。

于 2009-10-19T06:37:48.113 回答