1

如果有多个人在说话,有没有办法实时检测?我需要一个语音识别api吗?

我不想分离音频,也不想转录它。我的方法是经常使用一个麦克风(-> 单声道)进行录音,然后分析这些录音。但是,我将如何检测和区分声音呢?我会通过只查看相关频率来缩小范围,但是...

我明白这不是一件小事。这就是为什么我确实希望有一个开箱即用的 api 能够做到这一点 - 最好是一个移动/网络友好的 api。

现在这听起来像是圣诞节的购物清单,但如前所述,我不需要了解有关内容的任何信息。所以我的猜测是,成熟的语音识别会对性能产生很大影响。

4

1 回答 1

1

大多数类似的问题(成人/儿童分类器、语音/音乐分类器、单语音/语音混合分类器)都是标准的机器学习问题。您可以使用 GMM 之类的分类器来解决它们。您只需要为您的任务构建训练数据,因此:

  1. 拍一些干净的录音,你可以下载有声读物
  2. 通过混合干净的记录来准备混合数据
  3. 在两者上训练 GMM 分类器
  4. 比较干净语音 GMM 和混合语音 GMM 的概率,并通过两个分类器的概率比来确定混合的存在。

您可以在此处找到一些代码示例:

https://github.com/littleowen/Conceptor

例如,您可以尝试

https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb

于 2016-07-11T22:49:54.080 回答