我目前正在将 Vosk 语音识别实施到应用程序中。具体来看说话人识别,我已经从示例中实现了 test_speaker.py 并且它是功能性的。作为新手,我如何识别和/或创建参考说话人签名?使用提供的那个,用我的音频示例计算的距离列表并没有描述所涉及的两个扬声器:
[1.0182311997728735, 0.8679279016022726, 0.8552687907177629, 1.0258941854519696, 0.8666933753723253, 0.9291881495586336, 1.0316585805917928, 1.0227699471036409, 0.8442800102809634, 0.9093189414477789, 0.9153723223264221, 0.9705387223260904, 0.9077720598812595, 0.9524431272217568, 0.9179475137290445]
如果没有一种有效的方法可以从正在分析的音频中计算参考扬声器,您是否知道可以与 Vosk 一起使用来识别音频文件中的扬声器的另一种解决方案?如果没有,您会建议其他什么语音转文本选项?(我已经玩过谷歌的)
提前致谢