speech-recognition - 语音到文本到翻译是不可能的梦想吗？

Question

从理论上讲，人们可以使用笔记本电脑或平板电脑或手机的麦克风来捕捉口语，将其转换为屏幕上的单词，然后通过访问诸如谷歌翻译之类的 API，看到“a”（而不是“the”——无论如何几乎都不会） ) 这些词的粗略翻译“草稿”（例如，从英语到西班牙语或从西班牙语到英语）。

我认为这在法庭上会很有用——作为法庭口译员的一种“免提备忘录”。

理论上很简单，但可行吗？我看到了几个潜在的问题：

必须告诉软件哪个是目标语言，哪个是源语言。否则，如果将设备留给自己的设备（自动检测），可能会出现延迟，有时甚至会得出错误的结论。

必须过滤掉背景噪音和声音。

翻译（尝试）只有在说话者完成句子后才有效 - 软件如何知道这一点？按停顿的长度？有的人在一句话内停顿很久；有些人在句子之间几乎没有停顿，所以……那将如何工作？

人们说话不清楚，或口音难以理解。

这甚至没有提到（除了这里，间接地）机器人霸主翻译经常误解上下文。

我的直觉是，如果亚伯拉罕·林肯和马丁·路德·金同时讲话（即使在法庭上，有时也确实会发生这种情况），该软件会出现这样的情况：

对于 score 和七年前的今天，我很高兴与您一起加入。我们的父亲在这片大陆上带来了第四个，一个新的国家，在历史上将成为自由中最伟大的构想，并且。致力于为所有人的自由示威而生而平等的汗水。我们民族的历史。

...然后被翻译成这样：

Por puntuación y hace siete años que estoy encantado de unirme a ustedes hoy。Nuestros padres trajeron cuarto en estecontinente, una nueva nación, en lo que va a pasar a la historia como el mayor concebida en la libertad, y. Dedicada a la transpiración que la demostración por la libertad en todos los hombres son creados iguales。La historia de nuestra nación。

我想，我想说的是，当涉及到这类事情时，人类会“摇滚”——至少与目前复杂程度的机器（软件）相比，但我们是否会“摇滚”？足以克服这个问题吗？有没有办法克服这些障碍，至少足以让这样的程序值得使用？完美是无法实现的；我相信，匹配人类技能也是一个无法实现的目标，尤其是因为上下文因素。尽管如此： Speech-to-Text-to-Context-to-Translation 是否可以做得相对较好，如果可以，怎么做？

score 1 · Accepted Answer

我相信这是可能的，并且可以做得比较好：

设备应该能够部分地根据各种传感器和内存提供的数据来理解上下文，这些都需要进行微调才能得到好的结果，但这不是人们实际上一直在做的事情吗？我们根据所见、所感、所处位置来评估上下文；我们所看到的，我们的感受以及我们去过的地方——智能设备应该能够重现这些
设备应该能够根据它所知道的关于给定语言的所有信息来猜测句子的结束/开始位置——人们也会这样做，

如果该设备具有与人们相同的传感器、知识和内存，那么理论上它也可以做到这一点。

即使是眨眼也能提供很多上下文，我认为这一切都归结为设备接受并用于正确翻译文本的数据的复杂性和范围。它知道的越多，它就越好。

speech-recognition - 语音到文本到翻译是不可能的梦想吗？

1 回答 1

Related

Reference