我是机器学习领域的新手。目前,我正在尝试实现一个音频语言检测系统,它基于任何音频文件的 MFCC、delta、delta delta 和 Mel Spectrum Coefficients。这些特征是使用 librosa 提取的。Librosa 返回 MFCC 的二维矩阵。问题是我想在高斯混合模型上训练它们。Sci-kit 库以 格式接受输入(n_samples, n_features)
,但我有一个(n_samples, n_mfcc, n_time)
由librosa.features.mfcc()
. 如何向 GMM 提供 3D 输入?
还有一种方法可以将上面提到的所有 4 个功能发送到模型中吗?