在我的应用程序中,我需要记录人与人之间的对话,并且物理工作流程中没有空间对每个人的声音进行 20 秒的采样以训练识别器,也没有要求每个人阅读预设密码进行训练. 但是,据我所知,如果不这样做,就无法获得说话者的身份。
有没有什么方法可以只记录 5 个人说话并让识别器自动将返回的文本分类为属于 5 个不同的人之一,而无需先前的培训?
(值得一提的是,IBM Watson 可以做到这一点,尽管在我的测试中它做得不是很准确。)
在我的应用程序中,我需要记录人与人之间的对话,并且物理工作流程中没有空间对每个人的声音进行 20 秒的采样以训练识别器,也没有要求每个人阅读预设密码进行训练. 但是,据我所知,如果不这样做,就无法获得说话者的身份。
有没有什么方法可以只记录 5 个人说话并让识别器自动将返回的文本分类为属于 5 个不同的人之一,而无需先前的培训?
(值得一提的是,IBM Watson 可以做到这一点,尽管在我的测试中它做得不是很准确。)
预览版中的 Microsoft 对话转录,现在针对麦克风阵列设备。所以输入录音应该由麦克风阵列记录。如果您的录音来自普通麦克风,则可能无法正常工作,您需要进行特殊配置。您也可以尝试批量日记化,它支持离线转录,目前对 2 个扬声器进行日记化,它很快就会支持 2+ 个扬声器,可能在本月。