问题标签 [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
105 浏览

android - 在 android Studio 中构建 Comriva

我正在使用 Comriva 库将 MFCC 特征提取到我的语音识别项目中。我已经将 comriva 核心包导入到我的项目中。当我厌倦了构建它时,我在 gradle 中遇到了这个错误,

到目前为止,我没有像 simple-xml 那样包含任何 xml 库。

这是我的 gradle.build 文件,

请帮助我克服这个问题。

0 投票
0 回答
926 浏览

python - 处理不同大小的 MFCC 向量作为训练数据

我正在开展一个项目,我将患者的咳嗽分类为某种肺部疾病的阳性或阴性。

我现在有多个咳嗽事件,从较大的录音中分割出来。我已经为每个咳嗽事件提取了各种光谱特征,并希望将所有这些添加到一个特征向量中以训练逻辑回归 (LR) 分类器。

问题是每个咳嗽事件的长度不同,这导致我的 MFCC 特征长度也不同,这是训练 LR 分类器时的问题。

所以,我想知道是否有人有一些解决方法来处理不同大小的 MFCC 特征向量,以及如何让它们以正确的形状用作训练向量。我觉得很愚蠢,但我在网上找不到任何关于此的信息。肯定以前遇到过这个问题?

0 投票
1 回答
990 浏览

mfcc - 来自 mfcc 的 Delta 系数

有人可以向我解释一下从 MFCC 计算帧的增量系数吗?我不明白实用密码学教程中的解释。

0 投票
2 回答
880 浏览

python-2.7 - 使用序列设置数组元素(MFCC+fastDTW,Python)

我想使用 RPi 和 python 构建语音命令项目。我使用 MFCC 和 fastDTW 来匹配那个声音,但我收到了这个错误,我不知道如何修复它。这里的代码...

运行文件:

这是错误消息:

*** mccc 的输出是 numpy 数组形式。请帮忙....

0 投票
2 回答
2957 浏览

python - 为什么 librosa librosa.feature.mfcc() 会吐出一个二维数组?

在音频文件上调用 librosa.feature.mfcc() 会产生一个二维数组,如下所示:

我的问题是这些是什么?因为我期待一个一维的系数数组,为什么它是二维的?尺寸是多少?也许这是我对我应该得到的东西的误解,但是任何解释都将不胜感激。我尝试在网上查找,但似乎每个人都知道它是什么。

0 投票
1 回答
576 浏览

c# - 使用 HMM 或 MFCC 进行语音识别

请帮助我使用 HMM(隐藏马尔可夫模型)或 MFCC(梅尔频率倒谱系数)通过 longage c# 或 c++ 进行语音识别我想识别单词“一”、“二”......到“十”)当我说一个===> 显示 MessageBox 写一个

0 投票
0 回答
522 浏览

c++ - 为 Windows 10 任务栏图标设置上下文菜单的标题

我有一个我自己编写的开源应用程序,它是 Microsoft Windows 的文本和剪贴板阅读器。可以在我的网站上找到该应用程序,我难以想象地命名为 TTSApp 。

该应用程序使用 MFC,并且可以使用 Visual Studio 2013 或 Visual Studio 2015 构建,但窗口大小调整仅在使用 Visual Studio 2013 构建时才能正常工作。它使用 MFC,因此无法轻松移植到其他平台或编译器。

它目前使用 SAPI 5 或 Microsoft Speech Platform 进行语音。

我有一个 GetTitle 函数,它构造应用程序的标题以指示正在使用的配置、SAPI 或 Microsoft Speech Platform,以及正在使用的架构,x86 或 x64。例如,为 x64 平台构建的 Microsoft Speech Platform 配置的标题是“SnKOpen TTSApp - Microsoft Speech Platform - x64”。此图块用于对话框的窗口标题和应用程序名称(函数返回的值传递给 CWinApp 类的构造函数)。请注意,应用程序名称用于生成存储应用程序设置的 Windows 注册表项。

我一直无法弄清楚如何设置 Windows 10 任务栏图标上下文菜单的标题。下面的屏幕截图将说明我的意思。

TTSApp Windows 10 任务栏图标上下文菜单

我想将上图中的 TTSApp 设置为与对话框标题栏相同。

我尝试从 CTTSAppApp 类的构造函数调用CWinApp::SetAppID,然后调用SetCurrentProcessExplicitAppUserModelID Win32 API 函数,但没有这样做。

SetCurrentProcessExplicitAppUserModelID 的描述意味着这是完成我想要的方式,因为函数“指定了一个唯一的应用程序定义的应用程序用户模型 ID (AppUserModelID),该 ID 将当前进程标识到任务栏。”

有人对我下一步应该尝试什么有任何建议吗?

0 投票
1 回答
1262 浏览

c# - C# 中的音频描述符 MFCC

我正在做原始语音识别,我的音频信号需要简单的描述符。现在我的音频信号只有 FFT,但我不知道在那之后我应该做什么。当我尝试使用仅来自训练信号的 FFT 的隐马尔可夫模型时,它给了我错误的答案。

你能告诉我任何 C# 库,它们可以帮助我将 FFT 信号更改为 MFCC(梅尔频率倒谱系数)吗?

0 投票
1 回答
1959 浏览

speech-recognition - 在 MFCC 中提取特征的 LSTM 语音识别

研究深度神经网络,特别是 LSTM,我决定按照这个链接中提出的想法:为 LSTM 二进制分类构建语音数据集 来构建分类器。

我有一个基于音频的,其中提取 MFCC 的特征,其中每个数组是 13x56 每个单词的音素。训练数据是这样的:

在刻字中,第一帧标签肯定会被称为“中介”,而只有最后一帧实际上代表音素?

这真的是正确的吗?在第一次测试中,我执行的所有预期都倾向于将这个“中间人”标记为最普遍。可以使用任何其他方法吗?

0 投票
0 回答
76 浏览

signal-processing - 动态时间规整作为分类器,好主意吗?

在您开始阅读之前,请原谅我的英语不好,谢谢。

我正在利比亚学习计算机工程课程的最后一年。

我的毕业项目名称是“使用分类器融合方法的孤立词的语音识别系统”。该项目的基本思想是,我输入一个数字(0-9)的 1 秒录音,它以文本的形式显示在屏幕上。我的步骤是:

因此,在我使用 MFCC 并提取了我的特征之后,我使用 MED 只是为了查看整个 ASR 系统,并直观地了解它应该如何工作。然后我从 DTW 分类器开始,老实说,我不确定我做得对,所以这里是代码,如果有人以前使用过 DTW 作为分类器,请告诉我使用 DTW 是个好主意,如果所以,我做对了吗???

test.mat 里面有两个变量 'm' 是第一名的口语,'b' 也是第一名的口语,但是每个都是单独记录的,然后我会保留'm',并比较它对录字二来说,1vs1的成本一定比1vs2小,但我的情况不是,这是为什么呢????

谢谢大家