我在 Google Meet 上开会,看到你可以打开实时字幕。他们实际上在这里有一个关于如何完成实时语音到文本的演示,所以这一点不会让我感到困惑。
我也一直想尝试使用 WebRTC(我相信 GoogleMeet 使用它)只是为了看看它的功能 - 例如,无需任何额外屏幕即可共享屏幕的能力。
但是,我一直认为 WebRTC 视频/音频流是客户端对等的。因此,我的问题是
- 那么谷歌如何能够将音频流发送到服务器进行分析呢?
- 是否可以将音频流发送到客户端以及服务器?
- 您是否必须创建两个相同的音频流(我不知道这是否可能),通过 WebRTC 将一个发送到其他对等方,另一个发送到服务器进行分析?
他们如何实现这一点 - 如果他们不使用 WebRTC,是否可以使用 WebRTC 实现这一点?