1

通过读取音频文件的频率数据,我一直在到处寻找某种形式的性别检测。我没有找到可以做到这一点的程序,甚至可以输出音频数据的任何程序,因此我可以编写一个基本程序来读取它并对其进行操作以确定说话者的性别。

你们有谁知道我在哪里可以找到可以帮助我解决这个问题的东西吗?

重申一下,我基本上想要一个程序,当一个人对着麦克风说话时,它会相当精确地说出说话者的性别。我的完整计划是在它上面也有语音到文本的功能,所以程序会写出演讲者所说的话,并给出演讲者的一些非常基本的人口统计数据。

*最好使用支持跨平台或 linux 的通用脚本语言。

4

2 回答 2

1

您将要研究共振峰检测和线性预测编码。这是一篇论文,其中包含一些可以移植到 scipy/numpy 的信号流图。

于 2013-02-04T06:24:22.127 回答
1

虽然是一个老问题,但如果有人对从音频中进行性别检测感兴趣,您可以通过提取 MFCC(梅尔频率倒谱系数)特征并使用机器学习模型 GMM(高斯混合模型)对其进行建模来轻松做到这一点

可以按照本教程执行相同的操作,并在从 Google 的 AudioSet 性别明智数据中提取的子集上对其进行了评估。

https://appliedmachinelearning.wordpress.com/2017/06/14/voice-gender-detection-using-gmms-a-python-primer/

于 2017-06-14T11:46:24.860 回答