有没有人尝试使用阿里云 SDK 创建实时视频通话应用程序?当我询问支持时,他们说国际阿里云不提供视频通话服务,但中国提供。他们还提到我可以尝试使用他们的 SDK。我现在正在向他们询问提到的 SDK,这些 SDK 是什么。
如果哪位有相关领域或技术的经验,请帮我看看是否值得使用阿里云或其他云服务,因为阿里云不支持多云。
将不胜感激谢谢!!!
来自中国阿里巴巴的相关文件:
有没有人尝试使用阿里云 SDK 创建实时视频通话应用程序?当我询问支持时,他们说国际阿里云不提供视频通话服务,但中国提供。他们还提到我可以尝试使用他们的 SDK。我现在正在向他们询问提到的 SDK,这些 SDK 是什么。
如果哪位有相关领域或技术的经验,请帮我看看是否值得使用阿里云或其他云服务,因为阿里云不支持多云。
将不胜感激谢谢!!!
来自中国阿里巴巴的相关文件:
好消息:有许多潜在的提供者和选项可以拼凑一些东西。
坏消息:这个问题并不容易,顶级研究和产品团队的产品也不是很健壮。
您可以在modelfront.com/compare找到所有自助机器翻译 API 提供商的列表。大多数相同的提供商还提供语音识别 API,并且语音识别也可在许多设备上使用。
但是,根据您的情况,您可能最好使用语音到语音的方法(与将多个系统粘合在一起),甚至是本地模型(与外部 API),原因有以下三个:质量和延迟,以及两者的交互——即用户不想等待完整的句子,但也不喜欢翻译文本随着新词的出现而闪烁。
如果您在 r/machinetranslation 中搜索语音 OR 同声或口译,您会发现:
来自 Google Assistant 的“口译模式”发布公告
百度关于质量改进的公告
来自 FBK 的 Mattia di Gangi 的两篇文章
来自 Google的闪烁论文(重新翻译与同声传译的流式传输)
来自 Google的Translatron文章和论文
Apple的景观调查
来自字节跳动 (TikTok)的NeurST工具包 GitHub 存储库
百度研究在 WMT 2019 上有一个关于此的主题演讲,最近谷歌也有更多关于闪烁的内容,但两者都专注于自己的产品,而不是为外部开发人员提供的产品。