1

有没有人尝试使用阿里云 SDK 创建实时视频通话应用程序?当我询问支持时,他们说国际阿里云不提供视频通话服务,但中国提供。他们还提到我可以尝试使用他们的 SDK。我现在正在向他们询问提到的 SDK,这些 SDK 是什么。

如果哪位有相关领域或技术的经验,请帮我看看是否值得使用阿里云或其他云服务,因为阿里云不支持多云。

将不胜感激谢谢!!!

来自中国阿里巴巴的相关文件:

从 RTC 中的音频数据语音到文本 [Windows]

从 RTC 中的音频数据语音到文本 [Android]

实时语音识别

阿里云机器翻译

4

1 回答 1

1

好消息:有许多潜在的提供者和选项可以拼凑一些东西。

坏消息:这个问题并不容易,顶级研究和产品团队的产品也不是很健壮。

您可以在modelfront.com/compare找到所有自助机器翻译 API 提供商的列表。大多数相同的提供商还提供语音识别 API,并且语音识别也可在许多设备上使用。

但是,根据您的情况,您可能最好使用语音到语音的方法(与将多个系统粘合在一起),甚至是本地模型(与外部 API),原因有以下三个:质量延迟,以及两者的交互——即用户不想等待完整的句子,但也不喜欢翻译文本随着新词的出现而闪烁。

如果您在 r/machinetranslation 中搜索语音 OR 同声或口译,您会发现:

  • 来自 Google Assistant 的“口译模式”发布公告

  • 百度关于质量改进的公告

  • 来自 FBK 的 Mattia di Gangi 的两篇文章

  • 来自 Google的闪烁论文(重新翻译与同声传译的流式传输

  • 来自 Google的Translatron文章和论文

  • Apple的景观调查

  • 来自字节跳动 (TikTok)的NeurST工具包 GitHub 存储库

百度研究在 WMT 2019 上有一个关于此的主题演讲,最近谷歌也有更多关于闪烁的内容,但两者都专注于自己的产品,而不是为外部开发人员提供的产品。

于 2021-01-28T15:09:57.710 回答