我刚刚想出了一个想法,我想开发一个应用程序来区分/自动检测来自不同人的声音。
示例用例:在使用 Obama 和 Romney 的数据进行训练后,应用程序将能够检测到任何一方再次说话(不需要训练数据中的相同内容)
我想知道是否有这方面的现有研究。(我不知道如何搜索这个。我尝试了几个关键字并没有得到显着的结果。)
如果没有,什么是开始的好方法?如何选择特征、数据表示、模型等。
谢谢!
我刚刚想出了一个想法,我想开发一个应用程序来区分/自动检测来自不同人的声音。
示例用例:在使用 Obama 和 Romney 的数据进行训练后,应用程序将能够检测到任何一方再次说话(不需要训练数据中的相同内容)
我想知道是否有这方面的现有研究。(我不知道如何搜索这个。我尝试了几个关键字并没有得到显着的结果。)
如果没有,什么是开始的好方法?如何选择特征、数据表示、模型等。
谢谢!
我在 Wikipedia 上找到了说话人识别,它又链接到与文本无关的说话人识别概述:从特征到超向量(Kinnunen,Li,2010)。
从论文的摘要:
本文概述了自动说话人识别技术,重点是与文本无关的识别。几十年来一直在积极研究说话人识别。我们概述了经典方法和最先进的方法。