问题标签 [mfcc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 从 MFCC 训练 GMM 的图书馆
我正在尝试使用 MFCC、它们的 delta 和 delta-delta 从语音中构建一个基本的情绪检测器。许多论文谈到通过在这些特征上训练 GMM 来获得良好的准确性。
我似乎找不到一个现成的包来做同样的事情。我确实玩过 Python 中的 scilearn、Matlab 中的 Voicebox 和类似工具包以及 Rmixmod、stochmod、mclust、mixtools 和 R 中的其他一些包。从训练数据计算 GMM 的最佳库是什么?
android - CoMIRVA包可以在android中使用吗?
我计划实时提取 MFCC 特征,以便在我的 android 应用程序中用于语音识别。同样,我发现在 java 中有一个名为 CoMIRVA 的包。我尝试将包用于我的应用程序,但出现了一些错误。
这是我创建 MFCC 类对象的代码部分。浮动采样率=8000;私有 MFCC mfcc_inst=新 MFCC(采样率);
我还没有开始使用类中的任何方法。应用程序的其余部分包含使用 AudioRecord 和 AudioTrack 类进行实时音频录制和播放的代码。当我运行应用程序时,我在创建对象的行出现错误。我在下面发布日志文件的相关部分
E/AndroidRuntime(871):致命异常:主要
E/AndroidRuntime(871): java.lang.VerifyError: comirva/audio/util/math/Matrix
E/AndroidRuntime(871):在 comirva.audio.util.MFCC.getMelFilterBanks(MFCC.java:267)
E/AndroidRuntime(871): 在 comirva.audio.util.MFCC.(MFCC.java:162)
E/AndroidRuntime(871): 在 comirva.audio.util.MFCC.(MFCC.java:71)
E/AndroidRuntime(871):在 com.example.mfcc.MFCCActivity.(MFCCActivity.java:46)
E/AndroidRuntime(871):在 java.lang.Class.newInstanceImpl(Native Method)
E/AndroidRuntime(871):在 java.lang.Class.newInstance(Class.java:1319)
E/AndroidRuntime(871):在 android.app.Instrumentation.newActivity(Instrumentation.java:1023)
E/AndroidRuntime(871):在 android.app.ActivityThread.performLaunchActivity(ActivityThread.java:1871)
E/AndroidRuntime(871):在 android.app.ActivityThread.handleLaunchActivity(ActivityThread.java:1981)
E/AndroidRuntime(871): 在 android.app.ActivityThread.access$600(ActivityThread.java:123)
E/AndroidRuntime(871): 在 android.app.ActivityThread$H.handleMessage(ActivityThread.java:1147)
E/AndroidRuntime(871):在 android.os.Handler.dispatchMessage(Handler.java:99)
E/AndroidRuntime(871): 在 android.os.Looper.loop(Looper.java:137)
E/AndroidRuntime(871): 在 android.app.ActivityThread.main(ActivityThread.java:4424)
E/AndroidRuntime(871):在 java.lang.reflect.Method.invokeNative(Native Method)
E/AndroidRuntime(871):在 java.lang.reflect.Method.invoke(Method.java:511)
E/AndroidRuntime(871):在 com.android.internal.os.ZygoteInit$MethodAndArgsCaller.run(ZygoteInit.java:784)
E/AndroidRuntime(871): 在 com.android.internal.os.ZygoteInit.main(ZygoteInit.java:551)
E/AndroidRuntime(871): 在 dalvik.system.NativeStart.main(Native Method)
谢谢!!
pattern-matching - 使用 DTW 设置处理 MFFC 中的异常值
我有一个小型命令识别系统,用户首先记录他的命令,然后系统尝试识别它们。前端的特征向量是 MFCC 的系数。后端使用 DTW 进行识别以对齐这些特征向量并输出分数( 0 -> 命令相等)。此设置的问题在于将命令(用户记录的命令)与其他单词区分开来。选择最大分数作为识别命令的阈值不会产生好的结果。我查找了 LDA 和 PCA,目的是将记录的特征投影到不同的特征空间,在那里它们可以更容易分离。每个记录的命令都是一个类,它具有来自与该命令的帧相关联的前端的样本特征向量。由此我计算了 LDA 所需的变换,并将变换应用于每组生成的 MFCC 系数。这并没有让我区分记录的命令和未记录的命令。
我的问题是:
- 应用 LDA 的方法是错误的吗?
- 还有其他更适合我的设置的方法(MFCC + DTW)吗?
非常感谢任何帮助或指导。
谢谢
matlab - MATLAB mfcc gmdistribution 适合语音识别程序
我是 Matlab 的新手,正在做一个信号处理项目(语音识别)。在进行了一些计算之后,我在矩阵中得到了一些称为 MFCC(梅尔频率倒谱系数)的值。我现在应该使用函数 gmdistribution.fit(X,k) 应用高斯混合模型 (GMM) 分布。但我不断收到错误,
我不明白,我该如何解决这个问题?我尝试对矩阵进行转置,但随后出现其他错误。
我的 MFCC 矩阵一般有 13 行和大约 50-80 列。
有想法该怎么解决这个吗?我应该一次最多使用 12 列吗?或者在语音识别中获得最大似然 (ML) 估计的替代期望最大化 (EM) 算法是什么?
这是我从语音中提取 mfcc 特征向量后得到的示例矩阵:
audio - 如何使用 MFCC 向量对单个音频文件进行分类?
这可能是一个非常愚蠢的问题,但我在任何地方都找不到详细信息。
所以我有一个 3 秒长的录音(wav 文件)。那是我的样本,它需要分类为 [class_A] 或 [class_B]。
通过遵循 MFCC 上的一些教程,我将样本划分为帧(准确地说是 291 帧),并且我从每个帧中得到了 MFCC。
现在我有 291 个特征向量,每个向量的长度是 13。
我的问题是;您如何将这些向量与分类器(例如 k-NN)一起使用?我有 291 个向量代表 1 个样本。我知道如何为 1 个样本使用 1 个向量,但如果我有 291 个向量,我不知道该怎么做。我真的无法在任何地方找到解释。
speech-recognition - Mel 频率倒谱系数 - 语音特征提取
我目前正在执行一个与语音识别相关的项目,其中鼠标事件(如右键单击、左键单击、双击 .. 等)将作为语音命令给出。因此,作为第一步,我的主管告诉我使用梅尔频率倒谱系数提取每个语音命令的特征,并将这些提取的特征存储在使用 LIBSVM 格式的文本文件中。我已经使用互联网上的一些参考实现了 MFCC。但我不确定这在哪里是正确的。我不确定 MFCC 的输出。当我说“对”时,我的程序给出了这样的结果
- 有人可以解释一下输出之王应该从 MFCC 得到什么吗
- 如何以 LIBSVM 格式存储从 MFCC 提取的特征。
- 有人可以帮我为我的问题找到正确的 MFCC 数学实验室实现吗?
c++ - MFCC中的时域信号
我读过MFCC和Speech Recognition,有一点没看懂。根据此页面http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/中的文档,什么是“时域信号”?那是我在波形文件的头文件中读取的数据子块中的浮点数吗?
P/s: 对不起我的英语不好 :D
c++ - Mel-filterbank系数的计算公式
我正在与 MFCC 合作开展一个关于语音识别的项目。根据本网站http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/中的文档,Mel-filterbank 的计算公式如下:
我认为这里出了点问题。什么是“k”?这个网站不是唯一的。我搜索了很多文件,但它仍然存在。此外,如果 m == 1 , f[0] 不计算,所以条件( k < f[m-1] )是错误的,不是吗?有谁能够帮我?
c++ - 如何取MFCC中的前13个系数
我遇到了 MFCC 的问题。我一步一步地按照教程进行操作。在步骤“窗口化”之后,我计算每一帧的 DFT。我的问题是:剩下的步骤,包括“Mel-filter bank”、“log”和“DCT”,是否适用于每一帧?我感到困惑,因为在“DCT”步骤中,我们将采用之前计算的前 13 个系数。那么我们必须采取哪些框架呢?我真的需要一个明确的解释:(
mfc - MFC:为多边形区域添加淡入淡出效果
我想淡入淡出我创建的特定区域。但是当我使用 animatewindow() 时,它会淡出整个窗口,这在我创建多边形区域时是不可见的。我该怎么做呢?帮助不胜感激。