是否可以将 Google Speech API 配置为仅返回数字和字母,而不是完整的单词?
用例是翻译加拿大邮政编码。前任。M 1 B 0 R 3. Google 可能会返回“Em 1 Be 0 Are 3”
我们尝试过:
- 使用
speechContexts
和输入字母 A - Z,作为单独的短语。这提高了我们的准确性。我们在传递单个数字(例如 1、2、3)方面没有取得多大成功。 encoding
使用和sampleRateHertz
配置选项指定我们的 WAV 文件的编解码器和采样率。我们认为这样做没有任何改进,因为我们相信 Google 在自动识别采样率和编码方面已经做得很好。
我们的音频文件是 8000hz 并用“M-ULAW”编码。我们无法灵活地更改采样率或编码。
有没有办法让谷歌对这个用例做出更准确的回应?即使是更好的speechContexts
短语的想法也是受欢迎的。
谢谢