我有一个转录应用程序,可以将音频从文件转录为文本。问题是输出文本是一个长句子。所以我想一个解决方案可能是在音频文件中寻找停顿并在转录中添加标点符号。
如果音频内容是这样的:你好吗?--暂停--我很好。--pause-- 准备好开始了吗? - 暂停 -
它会转写成:你好吗。我很好。准备开始。
我的代码如下所示:
import speech_recognition as sr
r = sr.Recognizer()
with sr.AudioFile('Interview_143.flac') as source:
audio = r.listen(source)
try:
print("Google Speech Recognition results:")
print(r.recognize_google(audio, show_all=True)) # (pretty)-print the recognition result
except:
print('No speech recognized...')
结果:
“一个长句子中的很多文本很难阅读,因为句子之间没有标点符号来修复这个必须通过某种语法服务来修复它但是他们并不擅长设置标点符号所以模块/包也可以很好地完成这项工作”
如果不是,那么可能是这样的:检测音频文件中的静音