我开始使用谷歌语音 api 来转录音频。
正在转录的音频包含一个接一个地说出的许多数字。
例如 273 298
但转录回来了 270-3298
我的猜测是它将其解释为某种电话号码。
我想要的是未解析的输出,例如“二七十三二九十八”,我可以自己处理和解析。
有这种东西的设置或支持吗?
谢谢
我开始使用谷歌语音 api 来转录音频。
正在转录的音频包含一个接一个地说出的许多数字。
例如 273 298
但转录回来了 270-3298
我的猜测是它将其解释为某种电话号码。
我想要的是未解析的输出,例如“二七十三二九十八”,我可以自己处理和解析。
有这种东西的设置或支持吗?
谢谢
所以我遇到了同样的问题,我认为我们找到了解决方案。如果您使用英语作为输入,请在处理数字时切换到 en-PH。然后,Google 将不会将结果格式化为美国电话号码,也不会尝试在其中插入一个额外的数字。
尝试通过一些短语提示传递语音上下文。此处记录了如何使用它:https ://cloud.google.com/speech/docs/basics#phrase-hints
给它你想要识别的拼写数字。
"speech_context": {
"phrases":["zero", "one", "two", ... "nine", "ten", "eleven", ... "twenty", "thirty,..., "ninety"]
}
这不能保证有效,但它可能会有所帮助。
作为记录,我在上面尝试了 bambert 的解决方案,但不幸的是,它不起作用。我最近发布了另一个问题,看看是否有人找到了解决这种行为的方法,因为它阻止了我实施我计划的转录服务。
您是否尝试过 Google Speech customClass?
您有一些可以使用的类令牌,告诉 API 您需要的不是电话号码,而是不同类型的号码。
例如,如果您选择使用 OOV_CLASS_AM_RADIO_FREQUENCY,您将指示 API 以如下方式解释数字:
可能(还没有读过这个)API默认使用这个类FULLPHONENUM作为数字: