speech-to-text - 是否有用于语音到文本分类的扬声器错误率算法？

Question

一些语音到文本服务，如 Google Speech-to-Text，通过分类来提供说话者区分，该分类尝试识别和分离单个音频记录中的多个说话者。当多个发言者在会议室中共享一个麦克风时，通常需要这样做。

是否有算法和实现来计算说话人分离的正确性？

这将与经常用于测试基线转录正确性的单词错误率结合使用。

score 1 · Accepted Answer

常用的方法似乎是NIST在 NIST-RT 项目中定义的分类错误率 (DER)。

较新的评估指标是DIHARD II: The Second DIHARD Speech Diarization Challenge中引入的 Jaccard 错误率 (JER) 。

测量这些的两个项目包括：

这些论文中引用了 DER：

1 回答 1