5

我在 Google Meet 上开会,看到你可以打开实时字幕。他们实际上在这里有一个关于如何完成实时语音到文本的演示,所以这一点不会让我感到困惑。

我也一直想尝试使用 WebRTC(我相信 GoogleMeet 使用它)只是为了看看它的功能 - 例如,无需任何额外屏幕即可共享屏幕的能力。

但是,我一直认为 WebRTC 视频/音频流是客户端对等的。因此,我的问题是

  • 那么谷歌如何能够将音频流发送到服务器进行分析呢?
  • 是否可以将音频流发送到客户端以及服务器?
  • 您是否必须创建两个相同的音频流(我不知道这是否可能),通过 WebRTC 将一个发送到其他对等方,另一个发送到服务器进行分析?

他们如何实现这一点 - 如果他们不使用 WebRTC,是否可以使用 WebRTC 实现这一点?

4

1 回答 1

6

Google Meet 正在使用 WebRTC。在这种情况下,“对等点”是服务器,而不是浏览器。虽然 6 年的历史和一些细节已经改变,但这篇旧文章的大部分内容仍然是真实的。Google 可以从服务器进行音频处理。

该视频描述了语音转文本(实际上是翻译+文本转语音)所需的架构。

于 2020-03-27T07:49:04.687 回答