3

是否可以将 Microsoft Bing 语音 API 配置为仅返回数字和字母,而不是完整的单词?

用例是翻译加拿大邮政编码。前任。M 1 B 0 R 3. Microsoft 可能会返回“Em 1 Be 0 Are 3”

我们的音频文件是 8000hz 并用“M-ULAW”编码。我们无法灵活地更改采样率或编码。我们正在使用“SMD”场景,但我找不到任何关于它的作用的文档。基本请求 URI:

https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672-91D7-4C74-8AD8-42B1D98141A5&device.os=your_device_os&version=3.0

有没有办法让 Microsoft 对此用例做出更准确的响应?

谢谢

4

1 回答 1

2

您可以尝试使用Microsoft 的自定义语音服务(以前称为自定义识别智能服务,或 CRIS)来创建和使用自定义语言模型

自定义语言模型的转录指南说“常见的首字母缩略词可以保留为单个实体,字母之间没有句点或空格,但所有其他首字母缩略词应以单独的字母写出,每个字母由一个空格分隔”并包括这个例子:

Original text               After normalization
-----------------------     ---------------------------
play OU812 by Van Halen     play O U 8 1 2 by Van Halen

因此,按照他们的指南,您的自定义语言模型将是一个文件,其中每一行如下所示:

M 1 B 0 R 3

您可以根据代码的结构轻松生成包含数千个加拿大邮政编码示例的文件,其正则表达式格式如下所示:

[ABCEGHJKLMNPRSTVXY][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9]

(上面的表达式取自这个关于验证邮政编码的答案。)

通过这样做,您告诉识别器您希望人们说什么类型的东西,并帮助识别器在声音有多种可能性时进行选择(例如“U”与“you”)。我认为这会对你得到的结果产生巨大的影响。

于 2017-07-27T20:57:06.270 回答