“mfcc”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

194 浏览

mfcc - HTK 工具和采样率

大家好。~~（这句话开头可以吗？）~~

我试图用 HTK 工具模拟语音（单词）识别。
我有 *.wav 文件。
有些文件有 16KHz 的采样率，有些文件有 44.1KHz 的采样率。

我制作了关于每个采样率的 mfcc 文件。
但是，我使用所有（16KHz 和 44.1KHz）mfcc 文件制作 HMM 模型。

混合不同采样率的 HMM 模型可以吗？

我应该肯定知道信息，而不是建议。

谢谢阅读。

mfcc htk

2016-06-02T03:18:53.153

0 投票

0 回答

69 浏览

c++ - MFCC 上的卷积神经网络具有 c++ 特征

我想应用 CNN 将声音分类为语音/非语音，并且我已经计算了相同的 MFCC 特征。我查看了一些像 Caffe 这样的 NN 库，但在我看来，他们希望输入为图像。谁能建议我，我如何使用 MFCC 作为 CNN 的输入？

c++neural-network classification caffe mfcc

2016-06-15T12:56:09.080

0 投票

1 回答

14351 浏览

python-3.x - Python Librosa：用于计算 MFCC 特征的默认帧大小是多少？

使用 Librosa 库，我将音频文件 1319 秒的 MFCC 特征生成为一个矩阵20 X 56829。这里20表示 MFCC 功能的数量（我可以手动调整它）。但我不知道它是如何将音频长度分割成56829. 处理音频所需的帧大小是多少？

python-3.x audio mfcc

2016-06-22T08:51:52.863

0 投票

0 回答

975 浏览

python - 具有 MFCC 功能的 Python 使用 Numpy 训练 SVM

我在使用 numpy 时遇到问题。出于测试目的，我正在尝试训练两个 wav 文件的 MFCC。两个数组大小相同。

当我试图将数据放入分类器时

让我更准确地说，因为我长期以来一直在努力解决这个 numpy 形状问题并且找不到解决方案。

此时，我正在尝试将特征向量第一个标记为“悲伤”，第二个标记为“希望”，并希望预测 mfcctestwav 的标签。

返回错误。

我试图解开这些数组，结果得到了 0.5,0.5 的预测率，这并不奇怪，因为我已经将所有特征向量合并为一个。我相信我对 Numpy 或一般而言的 SVM 矩阵形成有疑问。

我检查了来自 http://python-speech-features.readthedocs.io/en/latest/ https://docs.scipy.org/doc/numpy-dev/user/quickstart.html的文档

但是自己还是找不到问题。感谢各种建议和解释。

编辑：我知道这条线

创建一个形状为 (2, 622, 13) 的 3D 数组，最终导致错误。我是否应该将它重塑为二维数组，如果是这样，正确的形式应该是什么，它背后的逻辑可能是什么。

python numpy machine-learning svm mfcc

2016-06-22T19:31:47.010

0 投票

1 回答

934 浏览

python - 使用 GMM 分类器每次运行都有不同的结果

我目前正在做一个语音识别和机器学习相关的项目。我现在有两个类，我为每个类创建了两个 GMM 分类器，分别用于标签“快乐”和“悲伤”

我想用 MFCC 向量训练 GMM 分类器。

我为每个标签使用两个 GMM 分类器。（以前是每个文件的 GMM）：

但是每次我运行脚本时，我都会得到不同的结果。使用相同的测试和训练样本可能是什么原因？

在下面的输出中，请注意我有 10 个测试样本，每行对应于订购的测试样本的结果

代码：

样本输出 1：

样本输出 2：

python machine-learning speech-recognition svm mfcc

2016-06-25T20:02:04.857

0 投票

2 回答

224 浏览

python - 分类器预测不可靠，是因为我的 GMM 分类器没有正确训练吗？

我正在使用 MFCC 值训练两个 GMM 分类器，每个分类器用于一个标签。我将一个类的所有 MFCC 值连接起来并放入一个分类器中。对于每个分类器，我将其标签概率的概率相加。

但是我的结果似乎并不一致，我很难相信这是因为 RandomSeed=None 状态，因为所有预测通常对于所有测试数据都是相同的标签，但每次运行它通常会给出完全相反的结果（见输出 1 和输出 2)。

所以我的问题是，在训练我的分类器时我做错了什么吗？

输出 1：

输出 2：

早些时候我问了一个相关的问题并得到了正确的答案。我在下面提供链接。

使用 GMM 分类器每次运行都有不同的结果

编辑：添加了收集数据并分为训练和测试的主要功能

编辑2：根据答案更改了代码。仍然有类似的不一致结果。

python machine-learning speech-recognition mfcc

2016-06-29T19:29:13.693

0 投票

0 回答

1151 浏览

python - Python：MFCC 功能中的 HMM 实现

使用 MFCC 特征作为输入数据（（20X56829）的 Numpy 数组），通过应用 HMM 尝试从 HMM 的解码状态创建音频词汇表。我在 MFCC 特征中有 10 个扬声器。我需要每个扬声器 50 个状态。所以我使用了 N = 500 个状态，它会引发内存错误，但它适用于 N =100 个状态。

这是代码：

我的初始化有什么问题吗？

python audio mfcc hmmlearn

2016-06-30T07:39:13.297

0 投票

0 回答

56 浏览

c++ - 实时流音频输入与录制的 wav 输入的吹气检测

我正在训练一个支持向量机来识别语音信号中的打击，训练后的模型在 wav 输入文件上的工作准确率几乎达到 95%。我正在计算具有 5ms 重叠的 10ms 帧的 MFCC 特征。

但是，如果我尝试对实时流进行预测，我正在使用 openAL 读取声卡缓冲区，并且我获取的每个缓冲区内容都是 30 毫秒长，并且不知何故，对这种输入的预测甚至不接近 50%，而是在另一方面，如果我在将音频输入馈送到 SVM 进行预测时记录它，然后如果我检查这个记录数据的准确性，它又是 95%。

我无法弄清楚在流式音频的情况下是什么导致了这种差异。任何帮助都会很棒。

c++svm openal mfcc

2016-07-01T15:32:37.233

0 投票

1 回答

3047 浏览

python - Librosa：MFCC 特征计算

给定一个的音频文件22 mins (1320 secs)，Librosa 通过以下方式提取 MFCC 特征 data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)

data.shape (20,56829) 它返回 56829 帧的 20 个 MFCC 特征的 numpy 数组。

我的问题是它是如何计算56829的。有没有什么计算可以实现这个框架？每帧的窗口大小是多少？

python audio audio-processing mfcc

2016-07-01T15:36:24.303

0 投票

1 回答

484 浏览

time-series - 如何对从 mfcc 获得的二维特征向量矩阵应用 DTW？

我有两个从 MFCC 获得的二维特征向量。如何在其上应用动态时间规整（DTW）？我可以找到两个向量之间的相似度百分比吗？

time-series cluster-analysis mfcc

2016-07-26T05:30:35.323

问题标签 [mfcc]

Reference