我正在尝试优化 Node.js 应用程序中的 Speech to Text 调用值。我正在尝试确定它们是否是当前的最佳实践。
我了解 Speech to Text 推荐采用 16,000Hz 采样率的 LINEAR16 编码,但这对于以 8000hz 发送且目前 Twilio 仅提供 MULAW 编码的 VOIP 是不可能的。
我想知道的是用于“模型”“use_enhanced”和“信心”的值是好的?
if (this.newStreamRequired()) {
if (this.stream) {
this.stream.destroy();
}
var request = {
config: {
encoding: "MULAW",
sampleRateHertz: 8000,
languageCode: "en-US",
model: 'phone_call',
use_enhanced: true,
confidence: 1.0
},
single_utterance: false,
interimResults: false,
is_final: true
};
this.streamCreatedAt = new Date();
this.stream = speech
.streamingRecognize(request)
.on("error", console.error)
.on("data", (data) => {
const result = data.results[0];
if (result === undefined || result.alternatives[0] === undefined) {
return;
}
this.emit('transcription', result.alternatives[0].transcript);
});
}