1

在我的应用程序中,我需要记录人与人之间的对话,并且物理工作流程中没有空间对每个人的声音进行 20 秒的采样以训练识别器,也没有要求每个人阅读预设密码进行训练. 但是,据我所知,如果不这样做,就无法获得说话者的身份。

有没有什么方法可以只记录 5 个人说话并让识别器自动将返回的文本分类为属于 5 个不同的人之一,而无需先前的培训?

(值得一提的是,IBM Watson 可以做到这一点,尽管在我的测试中它做得不是很准确。)

4

2 回答 2

2

如果我正确理解您的问题,那么对话转录Speaker[x]应该是您的方案的解决方案,因为如果您不事先生成用户配置文件,它将显示演讲者并为每个新演讲者进行迭代。

用户语音样本是可选的。如果没有此输入,转录将显示不同的扬声器,但显示为“扬声器 1”、“扬声器 2”等,而不是识别为预先注册的特定扬声器名称。

您可以开始使用实时对话转录快速入门

于 2020-10-31T20:16:31.897 回答
0

预览版中的 Microsoft 对话转录,现在针对麦克风阵列设备。所以输入录音应该由麦克风阵列记录。如果您的录音来自普通麦克风,则可能无法正常工作,您需要进行特殊配置。您也可以尝试批量日记化,它支持离线转录,目前对 2 个扬声器进行日记化,它很快就会支持 2+ 个扬声器,可能在本月。

于 2020-11-03T17:47:40.033 回答