4

我是 DeepSpeech 的新手,我按照此链接创建语音转文本代码,但我的结果与原始语音相差甚远。我正在使用 Deepspeech 0.6.1 并安装了相关的预训练模型。我正在使用此链接创建带有默认选项的 wav 文件。下面是我的代码。

import numpy as np
import wave
from deepspeech import Model
from scipy.io import wavfile as wav
import speech_recognition as sr

audio_file = "D:/Dataset/DeepSpeech/converted_stt1.wav"
ds = Model('D:/Dataset/DeepSpeech/deepspeech-0.6.1-models/models/output_graph.pbmm',500)
ds.enableDecoderWithLM('D:/Dataset/DeepSpeech/deepspeech-0.6.1-models/models/lm.binary','D:/Dataset/DeepSpeech/deepspeech-0.6.1-models/models/trie', 0.75, 1.85)
rate, audio = wav.read(audio_file)
print(audio)
transcript =ds.stt(audio)
print(transcript)

我怀疑这个问题是因为我的音频格式或其他原因。请帮助我解决这个问题,我怎样才能充分利用 deepspeech 库。

4

1 回答 1

1

我也在使用 Deepspeech v0.6.1

我注意到这是问题的一件事

from scipy.io import wavfile as wav 

因为当我使用 Mozilla Deepspeech 提供的 client.py 运行相同的文件时,结果发生了变化

客户端文件链接client.py

于 2020-02-27T10:44:44.870 回答