我正在尝试做的事情
我正在尝试使用 Mozilla 的语音到文本引擎deepspeech转录 Telegram 音频消息。
*.wav
在 16 位 16khz 中使用完美无瑕。
我想添加*.ogg
opus 支持,因为 Telegram 使用这种格式作为它的音频消息。
到目前为止我尝试过的
到目前为止,我已经尝试过pyogg和soundfile ,但没有成功。
Soundfile 可能完全无法读取 opus 格式,并且 pyogg 在没有 conda 的情况下安装起来很痛苦。我有非常奇怪的时刻,它真的让 python 崩溃了。
现在,我正在尝试 librosa,结果喜忧参半。
data, sample_rate = librosa.load(path)
tmp = np.array(data, np.float16)
tmp.dtype = np.int16
int16 = np.array(tmp, dtype=np.int16)
metadata = model.sttWithMetadata(int16)
Deepspeech 真的很喜欢np.int16
。model.sttWithMetadata
本质上是对转录员的呼吁。
现在,它确实转录了一些东西,但与我在音频信息中所说的内容相去甚远。