问题标签 [mfcc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mfcc - HTK 工具和采样率
大家好。(这句话开头可以吗?)
我试图用 HTK 工具模拟语音(单词)识别。
我有 *.wav 文件。
有些文件有 16KHz 的采样率,有些文件有 44.1KHz 的采样率。
我制作了关于每个采样率的 mfcc 文件。
但是,我使用所有(16KHz 和 44.1KHz)mfcc 文件制作 HMM 模型。
混合不同采样率的 HMM 模型可以吗?
我应该肯定知道信息,而不是建议。
谢谢阅读。
c++ - MFCC 上的卷积神经网络具有 c++ 特征
我想应用 CNN 将声音分类为语音/非语音,并且我已经计算了相同的 MFCC 特征。我查看了一些像 Caffe 这样的 NN 库,但在我看来,他们希望输入为图像。谁能建议我,我如何使用 MFCC 作为 CNN 的输入?
python-3.x - Python Librosa:用于计算 MFCC 特征的默认帧大小是多少?
使用 Librosa 库,我将音频文件 1319 秒的 MFCC 特征生成为一个矩阵20 X 56829
。这里20
表示 MFCC 功能的数量(我可以手动调整它)。但我不知道它是如何将音频长度分割成56829
. 处理音频所需的帧大小是多少?
python - 具有 MFCC 功能的 Python 使用 Numpy 训练 SVM
我在使用 numpy 时遇到问题。出于测试目的,我正在尝试训练两个 wav 文件的 MFCC。两个数组大小相同。
当我试图将数据放入分类器时
让我更准确地说,因为我长期以来一直在努力解决这个 numpy 形状问题并且找不到解决方案。
此时,我正在尝试将特征向量第一个标记为“悲伤”,第二个标记为“希望”,并希望预测 mfcctestwav 的标签。
返回错误。
我试图解开这些数组,结果得到了 0.5,0.5 的预测率,这并不奇怪,因为我已经将所有特征向量合并为一个。我相信我对 Numpy 或一般而言的 SVM 矩阵形成有疑问。
我检查了来自 http://python-speech-features.readthedocs.io/en/latest/ https://docs.scipy.org/doc/numpy-dev/user/quickstart.html的文档
但是自己还是找不到问题。感谢各种建议和解释。
编辑:我知道这条线
创建一个形状为 (2, 622, 13) 的 3D 数组,最终导致错误。我是否应该将它重塑为二维数组,如果是这样,正确的形式应该是什么,它背后的逻辑可能是什么。
python - 使用 GMM 分类器每次运行都有不同的结果
我目前正在做一个语音识别和机器学习相关的项目。我现在有两个类,我为每个类创建了两个 GMM 分类器,分别用于标签“快乐”和“悲伤”
我想用 MFCC 向量训练 GMM 分类器。
我为每个标签使用两个 GMM 分类器。(以前是每个文件的 GMM):
但是每次我运行脚本时,我都会得到不同的结果。使用相同的测试和训练样本可能是什么原因?
在下面的输出中,请注意我有 10 个测试样本,每行对应于订购的测试样本的结果
代码:
样本输出 1:
样本输出 2:
python - 分类器预测不可靠,是因为我的 GMM 分类器没有正确训练吗?
我正在使用 MFCC 值训练两个 GMM 分类器,每个分类器用于一个标签。我将一个类的所有 MFCC 值连接起来并放入一个分类器中。对于每个分类器,我将其标签概率的概率相加。
但是我的结果似乎并不一致,我很难相信这是因为 RandomSeed=None 状态,因为所有预测通常对于所有测试数据都是相同的标签,但每次运行它通常会给出完全相反的结果(见输出 1 和输出 2)。
所以我的问题是,在训练我的分类器时我做错了什么吗?
输出 1:
输出 2:
早些时候我问了一个相关的问题并得到了正确的答案。我在下面提供链接。
编辑:添加了收集数据并分为训练和测试的主要功能
编辑2:根据答案更改了代码。仍然有类似的不一致结果。
python - Python:MFCC 功能中的 HMM 实现
使用 MFCC 特征作为输入数据((20X56829)的 Numpy 数组),通过应用 HMM 尝试从 HMM 的解码状态创建音频词汇表。我在 MFCC 特征中有 10 个扬声器。我需要每个扬声器 50 个状态。所以我使用了 N = 500 个状态,它会引发内存错误,但它适用于 N =100 个状态。
这是代码:
我的初始化有什么问题吗?
c++ - 实时流音频输入与录制的 wav 输入的吹气检测
我正在训练一个支持向量机来识别语音信号中的打击,训练后的模型在 wav 输入文件上的工作准确率几乎达到 95%。我正在计算具有 5ms 重叠的 10ms 帧的 MFCC 特征。
但是,如果我尝试对实时流进行预测,我正在使用 openAL 读取声卡缓冲区,并且我获取的每个缓冲区内容都是 30 毫秒长,并且不知何故,对这种输入的预测甚至不接近 50%,而是在另一方面,如果我在将音频输入馈送到 SVM 进行预测时记录它,然后如果我检查这个记录数据的准确性,它又是 95%。
我无法弄清楚在流式音频的情况下是什么导致了这种差异。任何帮助都会很棒。
python - Librosa:MFCC 特征计算
给定一个 的音频文件22 mins (1320 secs)
,Librosa 通过以下方式提取 MFCC 特征
data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)
data.shape (20,56829) 它返回 56829 帧的 20 个 MFCC 特征的 numpy 数组。
我的问题是它是如何计算56829的。有没有什么计算可以实现这个框架?每帧的窗口大小是多少?
time-series - 如何对从 mfcc 获得的二维特征向量矩阵应用 DTW?
我有两个从 MFCC 获得的二维特征向量。如何在其上应用动态时间规整(DTW)?我可以找到两个向量之间的相似度百分比吗?