neural-network - 使用 Kaldi 的 x 向量方法进行说话人分割

Question

我将 kaldi 用于 asr，现在我想使用 Kaldi 的 x 向量方法进行说话人分割。他们在 https://github.com/kaldi-asr/kaldi/tree/master/egs/sre16/v2 提供了一些示例分割脚本。他们还在https://david-ryan提供了 LDC 语料库的基本预训练模型-snyder.github.io/2017/10/04/model_sre16_v2.html

此预训练模型在未归档时具有以下结构：

我无法访问 LDC 语料库，我想知道如何根据自己的数据训练模型，然后如何使用该模型进行实际分割？

score 0 · Accepted Answer

我想知道如何根据自己的数据训练模型

有使用公共数据的voxceleb demo，你可以自己运行。

您还可以将数据格式化为正确的数据结构（创建 data/utt2spk 和 data/wav.scp 文件）并使用您的数据运行。

然后如何使用该模型进行实际分割？

您从演示中的脚本开始，删除未使用的部分。这将为您提供基本的分段演示。您可以调用这个简化的演示，通过应用程序中的 system(2) 调用或以类似方式进行分段。

然后，如果您需要，您可以将脚本转换为相应的 C++ API 调用，并从 C++ 或任何脚本语言调用相同的过程。

1 回答 1