6

我正在寻找一种方法来匹配已知数据集,比如说 MP3 或 wav 文件列表,每个文件都是某人说​​话的样本。在这一点上,我知道文件 ABC 是关于人 X 说话的。

然后,我想再取一个样本,并进行一些语音匹配,以根据当时已知的数据集显示这个语音最有可能是谁。

另外,我不一定在乎对方说了什么,只要我能找到匹配的,即我不需要任何转录或其他方式。

我知道 CMU Sphinx 不做语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM Speaker Diarization (http://cmusphinx.sourceforge.net/wiki/ Speakerdiarization)或 VoiceID 项目(https://code.google.com/p/voiceid/),它使用 CMU 作为此类工作的基础。

如果我要使用 CMU,我该如何进行语音匹配?

另外,如果 CMU Sphinx 不是最好的框架,有没有开源的替代方案?

4

1 回答 1

2

对于博士论文来说,这是一个足够复杂的主题。目前还没有好的和可靠的系统。

您要完成的任务是一项非常复杂的任务。你应该如何处理它取决于你的情况。

  • 你的人数有限吗?多少?
  • 每个人有多少数据?

如果您要识别的人很少,您可以尝试一些简单的方法,例如获取这些人的共振峰并将它们与样本进行比较。

否则 - 您必须联系一些从事该主题工作的学者或陪审团制定您自己的解决方案。无论哪种方式,正如我所说,这都是一个难题。

于 2013-02-11T09:03:07.370 回答