问题标签 [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
104 浏览

c++ - 发生异常:向量下标超出范围

我正在尝试使用 aquila DSP LIb 计算波的 mfcc 和 dtw。但是当我执行以下代码时

发生了这个异常。向量下标超出范围文件:c:\program files\microsoft visual studio 8\vc\include\vector 行:1124

可能是什么问题?

0 投票
1 回答
839 浏览

python - PCA 应用于 MFCC 以提供 GMM 分类器(sklearn 库)

我面临一个(可能很简单)问题,我必须使用 PCA 降低特征向量的维数。所有这一切的重点是创建一个分类器来预测由音素组成的句子。我用人们发音的几个小时的句子训练我的模型(句子只有 10 个),每个句子都有一个由一组音素组成的标签(见下文)。

到目前为止,我所做的如下:

如何减少维度,同时为我提取的每个PCA具有相同的形状?

我还尝试了一个新东西:在我获得PCA向量的 for 循环中调用gmm_classifier.fit(...)(参见下面的代码)。函数fit()有效,但我不确定我是否真的正确训练了 GMM。

非常感谢

0 投票
0 回答
1603 浏览

audio - MFCC的含义

我有一个概念问题。

我知道什么是 mel 标度以及它代表什么,并且我知道这种频谱图对于我需要的信息仍然太多。

我认为如果我们想减少频谱图的信息数量,我们使用 MFCC。

但我真的不明白 MFCC 是什么以及它代表什么?我在语音识别过程中使用了 MFCC 矩阵,但我不明白该向量中的所有数字代表什么。

数组是 13x130,我不知道所有这些浮点数是什么意思。我知道我的音轨越长,我的矩阵越大(例如 13x250、13x400)。

我希望我把自己说清楚。

0 投票
1 回答
848 浏览

python - 神经网络中的多个实际输入和多个实际输出

我如何训练一个有多个输入和输出节点并且都是实值的感知器?

我这样做是因为我想训练一个神经网络来预测给定一些数据点(来自信号)的 MFCC。

这是一个示例数据: http: //pastebin.com/dtHGUeax 我不会把数据放在这里,因为文件是“大”的。

我目前正在使用 nolearn,因为稍后我将添加更多层用于深度学习。

我用这种方法得到的错误率非常高。

0 投票
1 回答
410 浏览

signal-processing - 使用 MFCC 系数进行简单的语音活动检测

由于 MFCC 系数存储有关频带幅度的信息(取决于使用的滤波器组),这些系数如何用于语音活动检测?

使用这些系数来执行进一步的能量计算并用它们做出决定就足够了吗?

0 投票
2 回答
429 浏览

matlab - 梅尔频率函数:矩阵维度的误差

我正在尝试通过以下链接制作原型音频识别系统:http ://www.ifp.illinois.edu/~minhdo/teaching/speaker_recognition/ 。这很简单,所以几乎没有什么可担心的。但我的问题是梅尔频率功能。这是网站上提供的代码:

但它给了我一个错误:

错误使用 * 内矩阵尺寸必须一致。

MFFC 中的错误(第 17 行)z = m * abs(f(1:n2)).^2;

当我在第 17 行之前包含这两行时:

它给了我:

那么我应该转置第二个矩阵吗?或者我应该将其解释为逐行乘法并修改代码?

编辑:这是主要功能(我只是运行 MFCC()):

以下是辅助功能:

0 投票
1 回答
8601 浏览

python-2.7 - 为 LSTM 二进制分类构建语音数据集

我正在尝试使用 theano 进行二进制 LSTM 分类。我已经浏览了示例代码,但是我想构建自己的。

我有一小部分正在使用的“Hello”和“Goodbye”录音。我通过为它们提取 MFCC 特征并将这些特征保存在文本文件中来对它们进行预处理。我有 20 个语音文件(每个 10 个),我正在为每个单词生成一个文本文件,因此 20 个文本文件包含 MFCC 功能。每个文件都是一个 13x56 矩阵。

我现在的问题是:如何使用这个文本文件来训练 LSTM?

我对此比较陌生。我也浏览了一些关于它的文献,但没有发现对这个概念的真正理解。

任何使用 LSTM 的更简单方法也将受到欢迎。

0 投票
0 回答
388 浏览

java - Android中读取.wav中的帧数

我使用此链接中的Reading Wav Files代码来读取 .wav 文件(44100 采样率)并在 double[frameNumber] 缓冲区中获取数据。但让我感到困惑的是帧的大小,为什么他们将其设置为 100 以读取帧号?当我检查我记录的每个不同 .wav 的总帧号时,它们有不同的数字和数字太大,我想从这个缓冲区做 mfcc,我应该使用每一帧中的所有数据来处理它吗?

0 投票
1 回答
2219 浏览

machine-learning - How to train a machine learning algorithm using MFCC coefficient vectors?

For my final year project i am trying to identify dog/bark/bird sounds real time (by recording sound clips). I am using MFCC as the audio features. Initially i have extracted altogether 12 MFCC vectors from a sound clip using jAudio library. Now I'm trying to train a machine learning algorithm(at the moment i have not decided the algorithm but it is most probably SVM). The sound clip size is like around 3 seconds. I need to clarify some information about this process. They are,

  1. Do i have to train this algorithm using frame based MFCCs(12 per frame) or or overall clip based MFCCs(12 per sound clip)?

  2. To train the algorithm do i have to consider all the 12 MFCCs as 12 different attributes or do i have to consider those 12 MFCCs as a one attribute ?

These MFCCs are the overall MFCCS for the clip,

-9.598802712290967 -21.644963856237265 -7.405551798816725 -11.638107212413201 -19.441831623156144 -2.780967392843105 -0.5792847321137902 -13.14237288849559 -4.920408873192934 -2.7111507999281925 -7.336670942457227 2.4687330348335212

Any help will be really appreciated to overcome these problems. I couldn't find out a good help on Google. :)

0 投票
1 回答
147 浏览

machine-learning - 学习向量量化 (LVQ) 不平衡输入大小

我是新学习 LVQ,我想用我的mfcc(梅尔频率倒谱系数)结果来实现它。据我所知,我研究的每个示例都有统一的训练和输入数据大小数组,例如:

x1[2][4] = {{0,1,1,1},{1,1,1,1},[{1,1,0,1}}

x2[2][4] = {{0,1,1,0},{1,1,0,1},{1,0,0,1}}

x3[2][4] = {{1,0,1,0},{1,1,1,0},{0,0,0,1}}

但是我的 mfcc 结果数据大小不平衡,例如:

x1 1 [4] = {{0,1,1,1},{1,1,1,1}}

x2[2][4] = {{0,0,1,0},{1,1,0,1},{1,0,0,1}}

x2[4][4] = {{0,0,1,0},{1,1,0,1},{1,0,0,1},{0,1,1,1},{ 1,0,1,0}}

那么我该如何处理这种不平衡的 LVQ 训练和输入数据大小呢?