我正在寻找一种方法来匹配已知数据集,比如说 MP3 或 wav 文件列表,每个文件都是某人说话的样本。在这一点上,我知道文件 ABC 是关于人 X 说话的。
然后,我想再取一个样本,并进行一些语音匹配,以根据当时已知的数据集显示这个语音最有可能是谁。
另外,我不一定在乎对方说了什么,只要我能找到匹配的,即我不需要任何转录或其他方式。
我知道 CMU Sphinx 不做语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM Speaker Diarization (http://cmusphinx.sourceforge.net/wiki/ Speakerdiarization)或 VoiceID 项目(https://code.google.com/p/voiceid/),它使用 CMU 作为此类工作的基础。
如果我要使用 CMU,我该如何进行语音匹配?
另外,如果 CMU Sphinx 不是最好的框架,有没有开源的替代方案?