我已经完成了来自 Mozilla 的 deepspeech 通用语音数据培训,现在我可以获得单个音频.wav
文件的输出。下面是我正在使用的命令。
(deepspeech-venv) megha@megha-medion:~/Alu_Meg/DeepSpeech_Alug_Meg/DeepSpeech$ ./deepspeech my_exportdir/model.pb/output_graph.pb models/alphabet.txt myAudio_for_testing.wav
在这里,myAudio_for_testing.wav 是我用来获取以下输出的音频文件。
TensorFlow: v1.6.0-9-g236f83e
DeepSpeech: v0.1.1-44-gd68fde8
Warning: reading entire model file into memory. Transform model file into an mmapped graph to reduce heap usage.
2018-06-29 14:51:35.832686: I tensorflow/core/platform/cpu_feature_guard.cc:140] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
heritor teay we decide the lunch ha annral limined eddition of y ye com im standmat
heitor teay 我们决定午餐 ha annral 有限版 y ye com im standmat
这是我的几个问题,
1)上面加粗的句子是我的音频的输出。我怎样才能保存这个这么一些文件?
2)我有大约 2000 个这样的音频文件。如何逐个读取并获得输出?我试图在 python 中编写一个脚本来读取我拥有的所有 .wav 音频文件,但是由于我的 deepspeech 使用了一些保存在虚拟环境中的源,我不知道如何在脚本中编写 deepspeech 命令. 你们能给我一些提示吗?这将是一个很大的帮助。
谢谢:)
梅加