audio - 在没有语音识别的情况下检测多个声音

Question

如果有多个人在说话，有没有办法实时检测？我需要一个语音识别api吗？

我不想分离音频，也不想转录它。我的方法是经常使用一个麦克风（-> 单声道）进行录音，然后分析这些录音。但是，我将如何检测和区分声音呢？我会通过只查看相关频率来缩小范围，但是...

我明白这不是一件小事。这就是为什么我确实希望有一个开箱即用的 api 能够做到这一点 - 最好是一个移动/网络友好的 api。

现在这听起来像是圣诞节的购物清单，但如前所述，我不需要了解有关内容的任何信息。所以我的猜测是，成熟的语音识别会对性能产生很大影响。

score 1 · Accepted Answer

大多数类似的问题（成人/儿童分类器、语音/音乐分类器、单语音/语音混合分类器）都是标准的机器学习问题。您可以使用 GMM 之类的分类器来解决它们。您只需要为您的任务构建训练数据，因此：

您可以在此处找到一些代码示例：

例如，您可以尝试

1 回答 1