问题标签 [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
842 浏览

speech-recognition - 如何将 MFCC 更改为 PointList 和 GMM

我使用 comirva 包制作了一个情绪识别程序。

我有很多关于情绪的wav文件,比如愤怒、快乐……

为了制作一个 gmm,首先,我从一个 argry 文件中提取了 mfcc 特征。

我感到困惑的是如何将 mffccs 更改为 pointlist。

哪一个是正确的?i) 将从一个文件中提取的 mfcc 更改为一个点列表 ii) 将从多个文件中提取的 mfcc 更改为一个点列表

0 投票
0 回答
304 浏览

speech-recognition - MFCC 制造的集群是什么意思?

我使用 MFCC + GMM 制作了一个情绪识别程序。

因为android,我使用了一个叫做comirva的java包。

使用这个包和emotion-speech DB,我在每种情绪中都制作了一个GMM,比如angryGMM、happyGMM ......

在制作 GMM 之前,我创建了一个 KMeanClustering 对象,并初始化了簇号。

我所知。如果我将簇数初始化为 3,则一组点将分为 3 个簇。

但我不确定一个集群是什么意思。

Q1) 一个集群是什么意思?它只是用于模式匹配吗?

创建 GMM 后,我使用已在 KMeansClustering 中使用过一次的点列表运行 GMM.EM 算法。Q2)我想知道为什么在训练中使用相同的点列表,尽管 GMM 是由这个点列表创建的。

0 投票
1 回答
1560 浏览

android - 有没有可以在android中使用的MFCC库?

我的团队正在语音应用程序中进行情绪识别。

要获得 mfcc,我们使用 comirva 包。

问题是创建 AudioPreProcessor 所需的 AudioInputStream 不能在 android 中使用。

所以我们一直在寻找某种替代方案。

有没有办法在android中获得mfcc?

0 投票
1 回答
207 浏览

speech-recognition - 我从 gmm 得出的似然值是否正确?

我正在做一个程序情感识别语音。

使用 mfcc + K-mean + GMM,我得到的可能性是 -15012、-43400、-8000

不过,它的价值比我大得多。是正确的价值吗?

Wave 文件的长度通常为 2~3,我使用以下选项进行初始化。

0 投票
0 回答
195 浏览

mfcc - 使用 ActiveX 控件时调试断言失败

我是这个论坛和 MFC 的新手……调试断言失败

在使用 ActiveX 控件时。请指导我这个..我的代码看起来

像这样:

点击OCR按钮后,我用Debug assertion failed就行了: pVal = (IUnknown *) m_MIDOCtrl.GetDocument(); 当我按下重试时,控件转到 winocc.cpp 中的 ASSERT(m_pCtrlsite != NULL),而调试时我知道 {CMIDOCView hWnd = 0x0000000}。

请任何人都可以建议我在这里做错了什么?

谢谢你们..

0 投票
2 回答
9976 浏览

speech-recognition - C/C++ 中的 Mel 频率倒谱系数 (MFCC)

C/C++ 中是否有任何可用的 MFCC 实现?任何源代码或库?

我已经找到了http://code.google.com/p/libmfcc/这似乎很好。

0 投票
3 回答
10834 浏览

signal-processing - MFCC - 13 个系数

我正在尝试根据我找到的这篇论文(http://arxiv.org/pdf/1003.4083.pdf)计算 MFCC 算法,所以到目前为止我所做的是:

步骤 1) 预加重

步骤 2) 构图

步骤 3) 汉明窗

步骤 4) 快速傅里叶变换

步骤 5) 梅尔滤波器组处理

步骤 6):离散余弦变换

基本上,我使用了 Mel Bank 滤波器并将它们与实际的原始信号相乘。然后我对这些结果执行 FFT,如下所示:

帧 1 上的 FFT:

在此处输入图像描述

然后我计算了 FFT 的 DCT,结果如下所示:

帧 1 上的 DCT:

在此处输入图像描述

到目前为止这看起来正确吗?有没有办法让我检查一下,以便我知道我正朝着正确的方向前进?

另外,我需要获得 13 个系数,但我不知道如何确定要获得哪些。我得到 256 个值,那么我要取前 13 个值吗?或者,我得到总能量了吗?

我希望有一个人可以帮助我。

0 投票
0 回答
1448 浏览

algorithm - 动态时间扭曲 - 比较值

抱歉,如果这是在错误的论坛中。

好的,所以我试图比较两个不同的语音信号,我遇到了一个问题。开始:

我已将信号分成块,并计算了每个块的 MFCC 系数。然后我使用 DTW 算法将(输入)信号与训练信号进行比较。

编辑(这个算法会起作用吗)?

我已经更新了算法(写自维基百科文章):

它现在处理二维向量,而不是一维。我认为这是我出错的地方,因为它打印出一系列数字而不仅仅是 1。

如果(实际的、训练的)MFCC 的输入值完全相同,则差异为“0”,没有差异。我需要检查训练值,但是,这个算法看起来对吗?

0 投票
1 回答
772 浏览

signal-processing - HMM - 训练数据和格式

我想实现一个 HMM(隐马尔可夫模型)来识别特定的单词。到目前为止,我已经设法提取了信号的系数 (MFCC),并想知道这是否是训练 HMM 的好数据?

此外,训练 HMM 的格式(如下)是否正确?

格式:

对于每个样本,都有一系列 MFCC 系数,我提供了其中两个样本作为示例...

-13.8033 0.645476 3.2174 -0.625136 -0.470134 -2.96368 0.701151 0.464246 1.1898 -1.88515 0.0805242 0.311573 0.732487

-19.4252 -5.65454 0.853437 0.317219 0.146167 -1.93742 0.381944 -2.01793 -0.561144 -0.896783 -0.105491 -1.06504 -0.797318

希望有人可以提供帮助:)

0 投票
1 回答
6235 浏览

svm - 如何使用 mfcc 功能训练 svm 分类器进行语音识别?

我目前处于语音识别的讨论阶段项目,我使用 MFCC 特征提取,但从函数返回的 MFCC 特征是一个矩阵,例如 每个语音文件(wav)的(20,38)特征矩阵。但是我怎样才能将此功能传递给 SVM 分类器。对于 SVM(和其他分类器),每个样本都由一个向量表示,对吧?但是每个样本的 MFCC 特征是一个矩阵。假设 Xi 是样本 i 的 MFCC 特征,那么样本 i 传递给 SVM 的特征是:1)一个 20*38 的向量,例如。Xi(:) 的 matlab 形式。2) 均值 (Xi)。3) Xi中的列或行之一。哪种方式是正确的?任何有用的代码,纸?

谢谢!闪耀