“mfcc”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

1347 浏览

r - 从 MFCC 训练 GMM 的图书馆

我正在尝试使用 MFCC、它们的 delta 和 delta-delta 从语音中构建一个基本的情绪检测器。许多论文谈到通过在这些特征上训练 GMM 来获得良好的准确性。

我似乎找不到一个现成的包来做同样的事情。我确实玩过 Python 中的 scilearn、Matlab 中的 Voicebox 和类似工具包以及 Rmixmod、stochmod、mclust、mixtools 和 R 中的其他一些包。从训练数据计算 GMM 的最佳库是什么？

2013-03-15T16:15:15.890

0 投票

0 回答

888 浏览

android - CoMIRVA包可以在android中使用吗？

我计划实时提取 MFCC 特征，以便在我的 android 应用程序中用于语音识别。同样，我发现在 java 中有一个名为 CoMIRVA 的包。我尝试将包用于我的应用程序，但出现了一些错误。

这是我创建 MFCC 类对象的代码部分。浮动采样率=8000；私有 MFCC mfcc_inst=新 MFCC（采样率）；

我还没有开始使用类中的任何方法。应用程序的其余部分包含使用 AudioRecord 和 AudioTrack 类进行实时音频录制和播放的代码。当我运行应用程序时，我在创建对象的行出现错误。我在下面发布日志文件的相关部分

E/AndroidRuntime(871)：致命异常：主要

E/AndroidRuntime(871): java.lang.VerifyError: comirva/audio/util/math/Matrix

E/AndroidRuntime(871)：在 comirva.audio.util.MFCC.getMelFilterBanks(MFCC.java:267)

E/AndroidRuntime(871): 在 comirva.audio.util.MFCC.(MFCC.java:162)

E/AndroidRuntime(871): 在 comirva.audio.util.MFCC.(MFCC.java:71)

E/AndroidRuntime(871)：在 com.example.mfcc.MFCCActivity.(MFCCActivity.java:46)

E/AndroidRuntime(871)：在 java.lang.Class.newInstanceImpl(Native Method)

E/AndroidRuntime(871)：在 java.lang.Class.newInstance(Class.java:1319)

E/AndroidRuntime(871)：在 android.app.Instrumentation.newActivity(Instrumentation.java:1023)

E/AndroidRuntime(871)：在 android.app.ActivityThread.performLaunchActivity(ActivityThread.java:1871)

E/AndroidRuntime(871)：在 android.app.ActivityThread.handleLaunchActivity(ActivityThread.java:1981)

E/AndroidRuntime(871): 在 android.app.ActivityThread.access$600(ActivityThread.java:123)

E/AndroidRuntime(871): 在 android.app.ActivityThread$H.handleMessage(ActivityThread.java:1147)

E/AndroidRuntime(871)：在 android.os.Handler.dispatchMessage(Handler.java:99)

E/AndroidRuntime(871): 在 android.os.Looper.loop(Looper.java:137)

E/AndroidRuntime(871): 在 android.app.ActivityThread.main(ActivityThread.java:4424)

E/AndroidRuntime(871)：在 java.lang.reflect.Method.invokeNative(Native Method)

E/AndroidRuntime(871)：在 java.lang.reflect.Method.invoke(Method.java:511)

E/AndroidRuntime(871)：在 com.android.internal.os.ZygoteInit$MethodAndArgsCaller.run(ZygoteInit.java:784)

E/AndroidRuntime(871): 在 com.android.internal.os.ZygoteInit.main(ZygoteInit.java:551)

E/AndroidRuntime(871): 在 dalvik.system.NativeStart.main(Native Method)

谢谢！！

android speech-recognition mfcc

2013-04-05T07:22:24.977

0 投票

1 回答

235 浏览

pattern-matching - 使用 DTW 设置处理 MFFC 中的异常值

我有一个小型命令识别系统，用户首先记录他的命令，然后系统尝试识别它们。前端的特征向量是 MFCC 的系数。后端使用 DTW 进行识别以对齐这些特征向量并输出分数（ 0 -> 命令相等）。此设置的问题在于将命令（用户记录的命令）与其他单词区分开来。选择最大分数作为识别命令的阈值不会产生好的结果。我查找了 LDA 和 PCA，目的是将记录的特征投影到不同的特征空间，在那里它们可以更容易分离。每个记录的命令都是一个类，它具有来自与该命令的帧相关联的前端的样本特征向量。由此我计算了 LDA 所需的变换，并将变换应用于每组生成的 MFCC 系数。这并没有让我区分记录的命令和未记录的命令。

我的问题是：

应用 LDA 的方法是错误的吗？
还有其他更适合我的设置的方法（MFCC + DTW）吗？

非常感谢任何帮助或指导。

谢谢

pattern-matching speech-recognition mfcc

2013-04-24T09:43:18.103

0 投票

3 回答

4300 浏览

matlab - MATLAB mfcc gmdistribution 适合语音识别程序

我是 Matlab 的新手，正在做一个信号处理项目（语音识别）。在进行了一些计算之后，我在矩阵中得到了一些称为 MFCC（梅尔频率倒谱系数）的值。我现在应该使用函数 gmdistribution.fit(X,k) 应用高斯混合模型 (GMM) 分布。但我不断收到错误，

我不明白，我该如何解决这个问题？我尝试对矩阵进行转置，但随后出现其他错误。

我的 MFCC 矩阵一般有 13 行和大约 50-80 列。

有想法该怎么解决这个吗？我应该一次最多使用 12 列吗？或者在语音识别中获得最大似然 (ML) 估计的替代期望最大化 (EM) 算法是什么？

这是我从语音中提取 mfcc 特征向量后得到的示例矩阵：

matlab speech-recognition mfcc

2013-04-28T14:15:30.130

0 投票

1 回答

3069 浏览

audio - 如何使用 MFCC 向量对单个音频文件进行分类？

这可能是一个非常愚蠢的问题，但我在任何地方都找不到详细信息。

所以我有一个 3 秒长的录音（wav 文件）。那是我的样本，它需要分类为 [class_A] 或 [class_B]。

通过遵循 MFCC 上的一些教程，我将样本划分为帧（准确地说是 291 帧），并且我从每个帧中得到了 MFCC。

现在我有 291 个特征向量，每个向量的长度是 13。

我的问题是；您如何将这些向量与分类器（例如 k-NN）一起使用？我有 291 个向量代表 1 个样本。我知道如何为 1 个样本使用 1 个向量，但如果我有 291 个向量，我不知道该怎么做。我真的无法在任何地方找到解释。

audio classification knn mfcc

2013-05-14T14:56:59.820

0 投票

1 回答

3448 浏览

speech-recognition - Mel 频率倒谱系数 - 语音特征提取

我目前正在执行一个与语音识别相关的项目，其中鼠标事件（如右键单击、左键单击、双击 .. 等）将作为语音命令给出。因此，作为第一步，我的主管告诉我使用梅尔频率倒谱系数提取每个语音命令的特征，并将这些提取的特征存储在使用 LIBSVM 格式的文本文件中。我已经使用互联网上的一些参考实现了 MFCC。但我不确定这在哪里是正确的。我不确定 MFCC 的输出。当我说“对”时，我的程序给出了这样的结果

有人可以解释一下输出之王应该从 MFCC 得到什么吗
如何以 LIBSVM 格式存储从 MFCC 提取的特征。
有人可以帮我为我的问题找到正确的 MFCC 数学实验室实现吗？

speech-recognition libsvm speech feature-extraction mfcc

2013-05-26T05:24:53.540

0 投票

1 回答

346 浏览

c++ - MFCC中的时域信号

我读过MFCC和Speech Recognition，有一点没看懂。根据此页面http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/中的文档，什么是“时域信号”？那是我在波形文件的头文件中读取的数据子块中的浮点数吗？

P/s: 对不起我的英语不好 :D

c++mfcc

2013-07-05T14:45:49.253

0 投票

1 回答

1077 浏览

c++ - Mel-filterbank系数的计算公式

我正在与 MFCC 合作开展一个关于语音识别的项目。根据本网站http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/中的文档，Mel-filterbank 的计算公式如下：

我认为这里出了点问题。什么是“k”？这个网站不是唯一的。我搜索了很多文件，但它仍然存在。此外，如果 m == 1 ， f[0] 不计算，所以条件（ k < f[m-1] ）是错误的，不是吗？有谁能够帮我？

c++mfcc

2013-07-07T17:32:59.587

0 投票

2 回答

1493 浏览

c++ - 如何取MFCC中的前13个系数

我遇到了 MFCC 的问题。我一步一步地按照教程进行操作。在步骤“窗口化”之后，我计算每一帧的 DFT。我的问题是：剩下的步骤，包括“Mel-filter bank”、“log”和“DCT”，是否适用于每一帧？我感到困惑，因为在“DCT”步骤中，我们将采用之前计算的前 13 个系数。那么我们必须采取哪些框架呢？我真的需要一个明确的解释:(

c++mfcc

2013-07-08T17:01:12.393

0 投票

1 回答

611 浏览

mfc - MFC：为多边形区域添加淡入淡出效果

我想淡入淡出我创建的特定区域。但是当我使用 animatewindow() 时，它会淡出整个窗口，这在我创建多边形区域时是不可见的。我该怎么做呢？帮助不胜感激。

mfc mfcc

2013-07-18T07:54:10.510

问题标签 [mfcc]

Reference