如果有多个人在说话,有没有办法实时检测?我需要一个语音识别api吗?
我不想分离音频,也不想转录它。我的方法是经常使用一个麦克风(-> 单声道)进行录音,然后分析这些录音。但是,我将如何检测和区分声音呢?我会通过只查看相关频率来缩小范围,但是...
我明白这不是一件小事。这就是为什么我确实希望有一个开箱即用的 api 能够做到这一点 - 最好是一个移动/网络友好的 api。
现在这听起来像是圣诞节的购物清单,但如前所述,我不需要了解有关内容的任何信息。所以我的猜测是,成熟的语音识别会对性能产生很大影响。