一些语音到文本服务,如 Google Speech-to-Text,通过分类来提供说话者区分,该分类尝试识别和分离单个音频记录中的多个说话者。当多个发言者在会议室中共享一个麦克风时,通常需要这样做。
是否有算法和实现来计算说话人分离的正确性?
这将与经常用于测试基线转录正确性的单词错误率结合使用。
一些语音到文本服务,如 Google Speech-to-Text,通过分类来提供说话者区分,该分类尝试识别和分离单个音频记录中的多个说话者。当多个发言者在会议室中共享一个麦克风时,通常需要这样做。
是否有算法和实现来计算说话人分离的正确性?
这将与经常用于测试基线转录正确性的单词错误率结合使用。
常用的方法似乎是NIST在 NIST-RT 项目中定义的分类错误率 (DER)。
较新的评估指标是DIHARD II: The Second DIHARD Speech Diarization Challenge中引入的 Jaccard 错误率 (JER) 。
测量这些的两个项目包括:
这些论文中引用了 DER: