我正在学习 Mozilla 的 DeepSpeech Speech-To-Text 引擎。我让命令行界面正常工作没有问题,但 Python 界面的行为似乎有所不同。当我运行时:
deepspeech --model models/output_graph.pb --alphabet models/alphabet.txt --audio testFile3.wav
在使用 sox 生成的 16 位单声道 48000 Hz .wav 文件上,我得到以下信息:
test test apple benana
当我的意思是“香蕉”时减去“benana”,它似乎工作正常,以及我测试过的其他文件。当我尝试使用来自本教程的以下代码时,问题就来了:
import deepspeech
import scipy.io.wavfile as wav
import sys
ds=deepspeech.Model(sys.argv[1],26,9,sys.argv[2],500)
fs,audio=wav.read(sys.argv[3])
processed_data=ds.stt(audio,fs)
print(processed_data)
我使用以下命令运行代码:
python3 -Bi test.py models/output_graph.pb models/alphabet.txt testFile3.wav
根据具体文件,我得到不同的四字符响应。我从这个特定文件中得到的响应是'hahm'
,但'hmhm'
也' eo'
很常见。将参数更改为模型(25、9 和 500)似乎不会改变输出。