我想使用 Mozilla deepspeech 将语音转换为文本。但是输出真的很差。
我已经下载了 mozilla 的预训练模型,然后我所做的是:
BEAM_WIDTH = 500
LM_WEIGHT = 1.50
VALID_WORD_COUNT_WEIGHT = 2.10
N_FEATURES = 26
N_CONTEXT = 9
ds = Model(model, N_FEATURES, N_CONTEXT, alphabet, BEAM_WIDTH)
fs,audio = wav.read(path)
data = audio[:,0] ## changing to mono channel (using only one channel)
prediction = ds.stt(data,fs)
print(test)
print(prediction)
现在输出与我的音频样本相去甚远。我该怎么做才能提高它的准确性?