python - 如何以字符串而不是音频流的形式从 Google 助理接收答案

Question

我正在使用 Assistant SDK 中的 python 库通过 gRPC 进行语音识别。我已识别语音并将其作为调用该方法的字符串返回，resp.result.spoken_request_text并且\googlesamples\assistant\__main__.py我将答案作为来自助手 API 的音频流，该方法resp.audio_out.audio_data也来自\googlesamples\assistant\__main__.py

我想知道是否也可以将服务的答案作为字符串（希望它在服务定义中可用或可以包含在内），以及如何以字符串的形式访问/请求答案。

提前致谢。

score 5 · Accepted Answer

目前（Assistant SDK Developer Preview 1），没有直接的方法可以做到这一点。您可能可以将音频流输入到 Speech-to-Text 系统，但这真的开始变得愚蠢了。

在 Google I/O 上与工程师就这个主题交谈时，他们表示这样做有一些技术上的复杂性，但他们了解用例。他们需要看到这样的问题才能知道人们想要这个功能。

希望它将成为即将到来的开发者预览版。

score 0 · Accepted Answer

更新：对于

google.assistant.embedded.v1alpha2

助手 SDK 包含字段supplemental_display_text

这旨在将助手响应提取为有助于用户理解的文本

或显示在屏幕上。仍然向开发人员提供文本。Goolge 助手文档

python - 如何以字符串而不是音频流的形式从 Google 助理接收答案

2 回答 2

Related

Reference