0

一些语音到文本服务,如 Google Speech-to-Text,通过分类来提供说话者区分,该分类尝试识别和分离单个音频记录中的多个说话者。当多个发言者在会议室中共享一个麦克风时,通常需要这样做。

是否有算法和实现来计算说话人分离的正确性?

这将与经常用于测试基线转录正确性的单词错误率结合使用。

4

1 回答 1

1

常用的方法似乎是NIST在 NIST-RT 项目中定义的分类错误率 (DER)。

较新的评估指标是DIHARD II: The Second DIHARD Speech Diarization Challenge中引入的 Jaccard 错误率 (JER) 。

测量这些的两个项目包括:

这些论文中引用了 DER:

于 2019-08-27T19:54:39.847 回答