问题标签 [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
365 浏览

speech-recognition - MFCC系数的数量与噪声有什么关系吗?

我在 android 设备中使用 MFCC + GMM 实现语音识别。

但我想知道的是,MFCC 功能是否可以通过调整 MFCC 系数的数量或其他因素(如频率范围、滤波器数量、windowSize)来稍微提高噪声鲁棒性。

提前致谢

0 投票
3 回答
2647 浏览

voice - 使用 libxtract 或其他小型 C、C++ 库来实现 VAD 功能

我尝试在 Android 上创建扬声器识别系统。目前我正在使用 libxtract 从帧和 libsvm 计算 MFCC 向量进行分类。

您知道如何使用我可以在 NDK 下编译的 libxtract 或其他小型 C、C++ 库来检测帧中的语音(VAD 语音活动检测)吗?

0 投票
1 回答
5072 浏览

android - 使用android进行语音处理的预加重

我正在开发一个应用程序,我需要为语音识别实现梅尔频率倒谱系数 (MFCC)。

MFCC 的第一步是应用 Pre-Emphasis

预加重将增加更高频率的信号能量。因为低频段被对语音识别无用/有害的声音占据。

我为这个过程找到了这个方程:

我的问题是我应该简单地将这个方程应用于原始信号吗?这样它会增加更高频率的信号能量。或者我应该在应用这个方程之前对输入信号应用某个滤波器?如果是这样,我将如何编程?

0 投票
1 回答
515 浏览

c++ - 以与英特尔的性能原语相同的方式构建 MFCC 滤波器组

我正在尝试构建用于生成 MFCC 的三角滤波器。我有基于 IPP 6 的现有代码,但由于 IPP 8 现在正在开发中,我真的很想获得一个可以工作且不依赖于旧的、现在不受支持的库的实现。

我已经生成了相关的 mel 缩放中心频率(加上两端的 2)。

然后我尝试按如下方式构建过滤器:

然后,我将上述向量与 FFT 结果逐段相乘(其中 bin 0 是 0Hz 或 DC 偏移 bin)并将它们相加(本质上是点积)。

似乎工作得相当好,但我得到的结果与 IPP 相比有很大不同,足以让我有点担心。

有什么我做错了吗?

整个过程包括进行 FFT,计算返回的复矢量 (std::abs) 的大小,然后应用如上计算的滤波器组。代码如下:

这是一个情节,其中系列 1 是我的 MFCC,系列 2 是 IPP:

我的 MFCC 与 IPP

在日志和举重阶段(我已经确认其工作方式与 IPP 相同)之后,结果更加错误。

任何想法和指示将不胜感激!

编辑:我应该指出,这里有一些关于 IPP 功能的文档:

http://software.intel.com/sites/products/documentation/hpc/ipp/ipps/ipps_ch8/functn_MelFBankInitAlloc.html

这似乎显示了数学。但是,我不确定 yk 和 ck 到底是什么......

0 投票
0 回答
1539 浏览

matlab - 从 MATLAB 和 SPhinx4 生成的 MFCC 文件是否不同?

我使用 MATLAb 将 .wav 文件转换为 .mfc 文件。我找到了两个 MATLAB 代码来做同样的事情。

http://www.ee.columbia.edu/~dpwe/resources/matlab/rastamat/

http://www.mathworks.in/matlabcentral/fileexchange/32849-htk-mfcc-matlab/content/mfcc/example.m

然而,两者都给出了不同的 MFCCS。其中一个是提供一个 20 行的 mfc 文件,另一个是 13 行。我猜有 13 个 MFCC 系数,那么 13 行是否代表 13 个系数?我还必须使用两个波形文件的 MFCC 来找出一个声音是如何在另一个文件中出现的。但结果并不正确。请帮忙。

0 投票
1 回答
3202 浏览

signal-processing - 语音识别中的 MFCC

我整个上周都在搜索 MFCC 和相关问题。现在我可以从二维向量 coff[56][12] 中的 .wav 文件中获取 MFCC 特征,比方说。12 是我要提取的系数数,56 是帧数。根据我阅读的几篇文档,我们可以使用以上12个系数来识别语音(特别是我想识别单词“一”,“二”......到“十”)。但是现在我得到了 12 帧中的 56 帧,那么我应该使用 56 帧中的哪一个?

如果我有什么问题,请帮助我!!!

0 投票
1 回答
24655 浏览

matlab - 计算MFCC的MATLAB代码

我有一个问题,如果这样可以。我最近在寻找计算 MFCC 的算法。我找到了一个很好的教程而不是代码,所以我尝试自己编写代码。我仍然觉得我缺少一件事。在下面的代码中,我对信号进行 FFT,计算归一化功率,使用三角形对信号进行滤波,并最终将对应于每个组的能量求和以获得 MFCC。

如果我犯了错误,有人可以确认这没关系或指导我>我用简单的纯音进行了测试,在我看来,它给了我合理的答案。

非常感谢任何帮助:)

PS。我正在研究如何应用矢量化余弦变换。看起来我需要一个 MxM 变换系数矩阵,但我没有找到任何可以解释如何做到这一点的来源。

0 投票
1 回答
375 浏览

ios - 如何在 iOS 项目中使用 LibXtract?

我正在尝试从音频文件中提取一些特征,MFCC 是准确的。然后我找到了一个 C 库 LibXtract,它可以为我完成这项工作。

我正在尝试在 iOS 项目中使用 LibXtract,我已按照本教程进行操作

http://inote.apptrek.net/2011/10/howto-compile-native-c-codes-to-a-library-for-ios-development-in-xcode-take-mosquitto-for-an-example/

但我在处理过程中遇到了一些问题,首先我收到了这个警告

ld:警告:忽略文件 ......./libLibXtract.a,文件 ..../libLibXtract.a 中缺少所需的体系结构 i386

和那些错误

架构 i386 的未定义符号:“_xtract_asdf”,引用自:VoiceRecAppDelegate.o 中的 -[VoiceRecAppDelegate applicationWillResignActive:]

ld:未找到体系结构 i386 的符号 clang:错误:链接器命令失败,退出代码为 1(使用 -v 查看调用)

所以我想在这个问题上寻求你的帮助,如果可能的话,我想只用 obj-C 代码从头开始提取 MFCC。

问候, 奥马尔

0 投票
1 回答
369 浏览

speech-recognition - MFCC 验证

我已经基于实用的密码学站点在 C 中实现了一些代码来提取 MFCC。有没有一种简单的方法可以验证我的系数值是否正确生成?

0 投票
2 回答
663 浏览

signal-processing - linux机器上最快的MFCC提取方法

从linux中的音频文件中提取mfcc的最快方法是什么(在我的例子中是Raspberry Pi)。我尝试了 sphinx3,但对于大文件(在 Raspberry Pi 上)来说速度很慢。SFS(语音归档系统)在 Windows 上相当快,但我无法在 linux 上安装它。请提出一些方法。