问题标签 [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
194 浏览

mfcc - HTK 工具和采样率


大家好。(这句话开头可以吗?)

我试图用 HTK 工具模拟语音(单词)识别。
我有 *.wav 文件。
有些文件有 16KHz 的采样率,有些文件有 44.1KHz 的采样率。

我制作了关于每个采样率的 mfcc 文件。
但是,我使用所有(16KHz 和 44.1KHz)mfcc 文件制作 HMM 模型。

混合不同采样率的 HMM 模型可以吗?

我应该肯定知道信息,而不是建议。

谢谢阅读。

0 投票
0 回答
69 浏览

c++ - MFCC 上的卷积神经网络具有 c++ 特征

我想应用 CNN 将声音分类为语音/非语音,并且我已经计算了相同的 MFCC 特征。我查看了一些像 Caffe 这样的 NN 库,但在我看来,他们希望输入为图像。谁能建议我,我如何使用 MFCC 作为 CNN 的输入?

0 投票
1 回答
14351 浏览

python-3.x - Python Librosa:用于计算 MFCC 特征的默认帧大小是多少?

使用 Librosa 库,我将音频文件 1319 秒的 MFCC 特征生成为一个矩阵20 X 56829。这里20表示 MFCC 功能的数量(我可以手动调整它)。但我不知道它是如何将音频长度分割成56829. 处理音频所需的帧大小是多少?

0 投票
0 回答
975 浏览

python - 具有 MFCC 功能的 Python 使用 Numpy 训练 SVM

我在使用 numpy 时遇到问题。出于测试目的,我正在尝试训练两个 wav 文件的 MFCC。两个数组大小相同。

当我试图将数据放入分类器时

让我更准确地说,因为我长期以来一直在努力解决这个 numpy 形状问题并且找不到解决方案。

此时,我正在尝试将特征向量第一个标记为“悲伤”,第二个标记为“希望”,并希望预测 mfcctestwav 的标签。

返回错误。

我试图解开这些数组,结果得到了 0.5,0.5 的预测率,这并不奇怪,因为我已经将所有特征向量合并为一个。我相信我对 Numpy 或一般而言的 SVM 矩阵形成有疑问。

我检查了来自 http://python-speech-features.readthedocs.io/en/latest/ https://docs.scipy.org/doc/numpy-dev/user/quickstart.html的文档

但是自己还是找不到问题。感谢各种建议和解释。

编辑:我知道这条线

创建一个形状为 (2, 622, 13) 的 3D 数组,最终导致错误。我是否应该将它重塑为二维数组,如果是这样,正确的形式应该是什么,它背后的逻辑可能是什么。

0 投票
1 回答
934 浏览

python - 使用 GMM 分类器每次运行都有不同的结果

我目前正在做一个语音识别和机器学习相关的项目。我现在有两个类,我为每个类创建了两个 GMM 分类器,分别用于标签“快乐”和“悲伤”

我想用 MFCC 向量训练 GMM 分类器。

我为每个标签使用两个 GMM 分类器。(以前是每个文件的 GMM):

但是每次我运行脚本时,我都会得到不同的结果。使用相同的测试和训练样本可能是什么原因?

在下面的输出中,请注意我有 10 个测试样本,每行对应于订购的测试样本的结果

代码:

样本输出 1:

样本输出 2:

0 投票
2 回答
224 浏览

python - 分类器预测不可靠,是因为我的 GMM 分类器没有正确训练吗?

我正在使用 MFCC 值训练两个 GMM 分类器,每个分类器用于一个标签。我将一个类的所有 MFCC 值连接起来并放入一个分类器中。对于每个分类器,我将其标签概率的概率相加。

但是我的结果似乎并不一致,我很难相信这是因为 RandomSeed=None 状态,因为所有预测通常对于所有测试数据都是相同的标签,但每次运行它通常会给出完全相反的结果(见输出 1 和输出 2)。

所以我的问题是,在训练我的分类器时我做错了什么吗?

输出 1:

输出 2:

早些时候我问了一个相关的问题并得到了正确的答案。我在下面提供链接。

使用 GMM 分类器每次运行都有不同的结果

编辑:添加了收集数据并分为训练和测试的主要功能

编辑2:根据答案更改了代码。仍然有类似的不一致结果。

0 投票
0 回答
1151 浏览

python - Python:MFCC 功能中的 HMM 实现

使用 MFCC 特征作为输入数据((20X56829)的 Numpy 数组),通过应用 HMM 尝试从 HMM 的解码状态创建音频词汇表。我在 MFCC 特征中有 10 个扬声器。我需要每个扬声器 50 个状态。所以我使用了 N = 500 个状态,它会引发内存错误,但它适用于 N =100 个状态。

这是代码:

我的初始化有什么问题吗?

0 投票
0 回答
56 浏览

c++ - 实时流音频输入与录制的 wav 输入的吹气检测

我正在训练一个支持向量机来识别语音信号中的打击,训练后的模型在 wav 输入文件上的工作准确率几乎达到 95%。我正在计算具有 5ms 重叠的 10ms 帧的 MFCC 特征。

但是,如果我尝试对实时流进行预测,我正在使用 openAL 读取声卡缓冲区,并且我获取的每个缓冲区内容都是 30 毫秒长,并且不知何故,对这种输入的预测甚至不接近 50%,而是在另一方面,如果我在将音频输入馈送到 SVM 进行预测时记录它,然后如果我检查这个记录数据的准确性,它又是 95%。

我无法弄清楚在流式音频的情况下是什么导致了这种差异。任何帮助都会很棒。

0 投票
1 回答
3047 浏览

python - Librosa:MFCC 特征计算

给定一个 的音频文件22 mins (1320 secs),Librosa 通过以下方式提取 MFCC 特征 data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)

data.shape (20,56829) 它返回 56829 帧的 20 个 MFCC 特征的 numpy 数组。

我的问题是它是如何计算56829的。有没有什么计算可以实现这个框架?每帧的窗口大小是多少?

0 投票
1 回答
484 浏览

time-series - 如何对从 mfcc 获得的二维特征向量矩阵应用 DTW?

我有两个从 MFCC 获得的二维特征向量。如何在其上应用动态时间规整(DTW)?我可以找到两个向量之间的相似度百分比吗?