问题标签 [mfcc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-recognition - 如何将 MFCC 更改为 PointList 和 GMM
我使用 comirva 包制作了一个情绪识别程序。
我有很多关于情绪的wav文件,比如愤怒、快乐……
为了制作一个 gmm,首先,我从一个 argry 文件中提取了 mfcc 特征。
我感到困惑的是如何将 mffccs 更改为 pointlist。
哪一个是正确的?i) 将从一个文件中提取的 mfcc 更改为一个点列表 ii) 将从多个文件中提取的 mfcc 更改为一个点列表
speech-recognition - MFCC 制造的集群是什么意思?
我使用 MFCC + GMM 制作了一个情绪识别程序。
因为android,我使用了一个叫做comirva的java包。
使用这个包和emotion-speech DB,我在每种情绪中都制作了一个GMM,比如angryGMM、happyGMM ......
在制作 GMM 之前,我创建了一个 KMeanClustering 对象,并初始化了簇号。
我所知。如果我将簇数初始化为 3,则一组点将分为 3 个簇。
但我不确定一个集群是什么意思。
Q1) 一个集群是什么意思?它只是用于模式匹配吗?
创建 GMM 后,我使用已在 KMeansClustering 中使用过一次的点列表运行 GMM.EM 算法。Q2)我想知道为什么在训练中使用相同的点列表,尽管 GMM 是由这个点列表创建的。
android - 有没有可以在android中使用的MFCC库?
我的团队正在语音应用程序中进行情绪识别。
要获得 mfcc,我们使用 comirva 包。
问题是创建 AudioPreProcessor 所需的 AudioInputStream 不能在 android 中使用。
所以我们一直在寻找某种替代方案。
有没有办法在android中获得mfcc?
speech-recognition - 我从 gmm 得出的似然值是否正确?
我正在做一个程序情感识别语音。
使用 mfcc + K-mean + GMM,我得到的可能性是 -15012、-43400、-8000
不过,它的价值比我大得多。是正确的价值吗?
Wave 文件的长度通常为 2~3,我使用以下选项进行初始化。
mfcc - 使用 ActiveX 控件时调试断言失败
我是这个论坛和 MFC 的新手……调试断言失败
在使用 ActiveX 控件时。请指导我这个..我的代码看起来
像这样:
点击OCR按钮后,我用Debug assertion failed就行了: pVal = (IUnknown *) m_MIDOCtrl.GetDocument(); 当我按下重试时,控件转到 winocc.cpp 中的 ASSERT(m_pCtrlsite != NULL),而调试时我知道 {CMIDOCView hWnd = 0x0000000}。
请任何人都可以建议我在这里做错了什么?
谢谢你们..
speech-recognition - C/C++ 中的 Mel 频率倒谱系数 (MFCC)
C/C++ 中是否有任何可用的 MFCC 实现?任何源代码或库?
我已经找到了http://code.google.com/p/libmfcc/这似乎很好。
signal-processing - MFCC - 13 个系数
我正在尝试根据我找到的这篇论文(http://arxiv.org/pdf/1003.4083.pdf)计算 MFCC 算法,所以到目前为止我所做的是:
步骤 1) 预加重
步骤 2) 构图
步骤 3) 汉明窗
步骤 4) 快速傅里叶变换
步骤 5) 梅尔滤波器组处理
步骤 6):离散余弦变换
基本上,我使用了 Mel Bank 滤波器并将它们与实际的原始信号相乘。然后我对这些结果执行 FFT,如下所示:
帧 1 上的 FFT:
然后我计算了 FFT 的 DCT,结果如下所示:
帧 1 上的 DCT:
到目前为止这看起来正确吗?有没有办法让我检查一下,以便我知道我正朝着正确的方向前进?
另外,我需要获得 13 个系数,但我不知道如何确定要获得哪些。我得到 256 个值,那么我要取前 13 个值吗?或者,我得到总能量了吗?
我希望有一个人可以帮助我。
algorithm - 动态时间扭曲 - 比较值
抱歉,如果这是在错误的论坛中。
好的,所以我试图比较两个不同的语音信号,我遇到了一个问题。开始:
我已将信号分成块,并计算了每个块的 MFCC 系数。然后我使用 DTW 算法将(输入)信号与训练信号进行比较。
编辑(这个算法会起作用吗)?
我已经更新了算法(写自维基百科文章):
它现在处理二维向量,而不是一维。我认为这是我出错的地方,因为它打印出一系列数字而不仅仅是 1。
如果(实际的、训练的)MFCC 的输入值完全相同,则差异为“0”,没有差异。我需要检查训练值,但是,这个算法看起来对吗?
signal-processing - HMM - 训练数据和格式
我想实现一个 HMM(隐马尔可夫模型)来识别特定的单词。到目前为止,我已经设法提取了信号的系数 (MFCC),并想知道这是否是训练 HMM 的好数据?
此外,训练 HMM 的格式(如下)是否正确?
格式:
对于每个样本,都有一系列 MFCC 系数,我提供了其中两个样本作为示例...
-13.8033 0.645476 3.2174 -0.625136 -0.470134 -2.96368 0.701151 0.464246 1.1898 -1.88515 0.0805242 0.311573 0.732487
-19.4252 -5.65454 0.853437 0.317219 0.146167 -1.93742 0.381944 -2.01793 -0.561144 -0.896783 -0.105491 -1.06504 -0.797318
希望有人可以提供帮助:)
svm - 如何使用 mfcc 功能训练 svm 分类器进行语音识别?
我目前处于语音识别的讨论阶段项目,我使用 MFCC 特征提取,但从函数返回的 MFCC 特征是一个矩阵,例如 每个语音文件(wav)的(20,38)特征矩阵。但是我怎样才能将此功能传递给 SVM 分类器。对于 SVM(和其他分类器),每个样本都由一个向量表示,对吧?但是每个样本的 MFCC 特征是一个矩阵。假设 Xi 是样本 i 的 MFCC 特征,那么样本 i 传递给 SVM 的特征是:1)一个 20*38 的向量,例如。Xi(:) 的 matlab 形式。2) 均值 (Xi)。3) Xi中的列或行之一。哪种方式是正确的?任何有用的代码,纸?
谢谢!闪耀