google-api - 可以将 Google Speech API 配置为仅返回数字/字母吗？

Question

是否可以将 Google Speech API 配置为仅返回数字和字母，而不是完整的单词？

用例是翻译加拿大邮政编码。前任。M 1 B 0 R 3. Google 可能会返回“Em 1 Be 0 Are 3”

我们尝试过：

使用speechContexts和输入字母 A - Z，作为单独的短语。这提高了我们的准确性。我们在传递单个数字（例如 1、2、3）方面没有取得多大成功。
encoding使用和sampleRateHertz配置选项指定我们的 WAV 文件的编解码器和采样率。我们认为这样做没有任何改进，因为我们相信 Google 在自动识别采样率和编码方面已经做得很好。

我们的音频文件是 8000hz 并用“M-ULAW”编码。我们无法灵活地更改采样率或编码。

有没有办法让谷歌对这个用例做出更准确的回应？即使是更好的speechContexts短语的想法也是受欢迎的。

谢谢

score 1 · Accepted Answer

我们正在经历相同的结果，我们希望有一个基于语法的“上下文”建议或一个参数来强制只返回数字变量。

api 版本的更改并没有修复识别数字的方式，甚至没有使用模型：phone_call。

实际上对于识别某种数字更好的是切换到 en_US 区域设置，这反过来又迫使识别引擎将数字列表识别为电话。所以它以类似电话的语法返回，带有 +XXX-XXX-XXX-XXXX，这使得检测非常好。

所以我不明白为什么谷歌在幕后进行语法匹配并且不通过他们的 api 提供它。

1 回答 1