从理论上讲,人们可以使用笔记本电脑或平板电脑或手机的麦克风来捕捉口语,将其转换为屏幕上的单词,然后通过访问诸如谷歌翻译之类的 API,看到“a”(而不是“the”——无论如何几乎都不会) ) 这些词的粗略翻译“草稿”(例如,从英语到西班牙语或从西班牙语到英语)。
我认为这在法庭上会很有用——作为法庭口译员的一种“免提备忘录”。
理论上很简单,但可行吗?我看到了几个潜在的问题:
必须告诉软件哪个是目标语言,哪个是源语言。否则,如果将设备留给自己的设备(自动检测),可能会出现延迟,有时甚至会得出错误的结论。
必须过滤掉背景噪音和声音。
翻译(尝试)只有在说话者完成句子后才有效 - 软件如何知道这一点?按停顿的长度?有的人在一句话内停顿很久;有些人在句子之间几乎没有停顿,所以……那将如何工作?
人们说话不清楚,或口音难以理解。
这甚至没有提到(除了这里,间接地)机器人霸主翻译经常误解上下文。
我的直觉是,如果亚伯拉罕·林肯和马丁·路德·金同时讲话(即使在法庭上,有时也确实会发生这种情况),该软件会出现这样的情况:
对于 score 和七年前的今天,我很高兴与您一起加入。我们的父亲在这片大陆上带来了第四个,一个新的国家,在历史上将成为自由中最伟大的构想,并且。致力于为所有人的自由示威而生而平等的汗水。我们民族的历史。
...然后被翻译成这样:
Por puntuación y hace siete años que estoy encantado de unirme a ustedes hoy。Nuestros padres trajeron cuarto en estecontinente, una nueva nación, en lo que va a pasar a la historia como el mayor concebida en la libertad, y. Dedicada a la transpiración que la demostración por la libertad en todos los hombres son creados iguales。La historia de nuestra nación。
我想,我想说的是,当涉及到这类事情时,人类会“摇滚”——至少与目前复杂程度的机器(软件)相比,但我们是否会“摇滚”?足以克服这个问题吗?有没有办法克服这些障碍,至少足以让这样的程序值得使用?完美是无法实现的;我相信,匹配人类技能也是一个无法实现的目标,尤其是因为上下文因素。尽管如此: Speech-to-Text-to-Context-to-Translation 是否可以做得相对较好,如果可以,怎么做?