问题标签 [mfcc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 在 android Studio 中构建 Comriva
我正在使用 Comriva 库将 MFCC 特征提取到我的语音识别项目中。我已经将 comriva 核心包导入到我的项目中。当我厌倦了构建它时,我在 gradle 中遇到了这个错误,
到目前为止,我没有像 simple-xml 那样包含任何 xml 库。
这是我的 gradle.build 文件,
请帮助我克服这个问题。
python - 处理不同大小的 MFCC 向量作为训练数据
我正在开展一个项目,我将患者的咳嗽分类为某种肺部疾病的阳性或阴性。
我现在有多个咳嗽事件,从较大的录音中分割出来。我已经为每个咳嗽事件提取了各种光谱特征,并希望将所有这些添加到一个特征向量中以训练逻辑回归 (LR) 分类器。
问题是每个咳嗽事件的长度不同,这导致我的 MFCC 特征长度也不同,这是训练 LR 分类器时的问题。
所以,我想知道是否有人有一些解决方法来处理不同大小的 MFCC 特征向量,以及如何让它们以正确的形状用作训练向量。我觉得很愚蠢,但我在网上找不到任何关于此的信息。肯定以前遇到过这个问题?
mfcc - 来自 mfcc 的 Delta 系数
有人可以向我解释一下从 MFCC 计算帧的增量系数吗?我不明白实用密码学教程中的解释。
python-2.7 - 使用序列设置数组元素(MFCC+fastDTW,Python)
我想使用 RPi 和 python 构建语音命令项目。我使用 MFCC 和 fastDTW 来匹配那个声音,但我收到了这个错误,我不知道如何修复它。这里的代码...
运行文件:
这是错误消息:
*** mccc 的输出是 numpy 数组形式。请帮忙....
python - 为什么 librosa librosa.feature.mfcc() 会吐出一个二维数组?
在音频文件上调用 librosa.feature.mfcc() 会产生一个二维数组,如下所示:
我的问题是这些是什么?因为我期待一个一维的系数数组,为什么它是二维的?尺寸是多少?也许这是我对我应该得到的东西的误解,但是任何解释都将不胜感激。我尝试在网上查找,但似乎每个人都知道它是什么。
c# - 使用 HMM 或 MFCC 进行语音识别
请帮助我使用 HMM(隐藏马尔可夫模型)或 MFCC(梅尔频率倒谱系数)通过 longage c# 或 c++ 进行语音识别我想识别单词“一”、“二”......到“十”)当我说一个===> 显示 MessageBox 写一个
c++ - 为 Windows 10 任务栏图标设置上下文菜单的标题
我有一个我自己编写的开源应用程序,它是 Microsoft Windows 的文本和剪贴板阅读器。可以在我的网站上找到该应用程序,我难以想象地命名为 TTSApp 。
该应用程序使用 MFC,并且可以使用 Visual Studio 2013 或 Visual Studio 2015 构建,但窗口大小调整仅在使用 Visual Studio 2013 构建时才能正常工作。它使用 MFC,因此无法轻松移植到其他平台或编译器。
它目前使用 SAPI 5 或 Microsoft Speech Platform 进行语音。
我有一个 GetTitle 函数,它构造应用程序的标题以指示正在使用的配置、SAPI 或 Microsoft Speech Platform,以及正在使用的架构,x86 或 x64。例如,为 x64 平台构建的 Microsoft Speech Platform 配置的标题是“SnKOpen TTSApp - Microsoft Speech Platform - x64”。此图块用于对话框的窗口标题和应用程序名称(函数返回的值传递给 CWinApp 类的构造函数)。请注意,应用程序名称用于生成存储应用程序设置的 Windows 注册表项。
我一直无法弄清楚如何设置 Windows 10 任务栏图标上下文菜单的标题。下面的屏幕截图将说明我的意思。
我想将上图中的 TTSApp 设置为与对话框标题栏相同。
我尝试从 CTTSAppApp 类的构造函数调用CWinApp::SetAppID,然后调用SetCurrentProcessExplicitAppUserModelID Win32 API 函数,但没有这样做。
SetCurrentProcessExplicitAppUserModelID 的描述意味着这是完成我想要的方式,因为函数“指定了一个唯一的应用程序定义的应用程序用户模型 ID (AppUserModelID),该 ID 将当前进程标识到任务栏。”
有人对我下一步应该尝试什么有任何建议吗?
c# - C# 中的音频描述符 MFCC
我正在做原始语音识别,我的音频信号需要简单的描述符。现在我的音频信号只有 FFT,但我不知道在那之后我应该做什么。当我尝试使用仅来自训练信号的 FFT 的隐马尔可夫模型时,它给了我错误的答案。
你能告诉我任何 C# 库,它们可以帮助我将 FFT 信号更改为 MFCC(梅尔频率倒谱系数)吗?
speech-recognition - 在 MFCC 中提取特征的 LSTM 语音识别
研究深度神经网络,特别是 LSTM,我决定按照这个链接中提出的想法:为 LSTM 二进制分类构建语音数据集 来构建分类器。
我有一个基于音频的,其中提取 MFCC 的特征,其中每个数组是 13x56 每个单词的音素。训练数据是这样的:
在刻字中,第一帧标签肯定会被称为“中介”,而只有最后一帧实际上代表音素?
这真的是正确的吗?在第一次测试中,我执行的所有预期都倾向于将这个“中间人”标记为最普遍。可以使用任何其他方法吗?
signal-processing - 动态时间规整作为分类器,好主意吗?
在您开始阅读之前,请原谅我的英语不好,谢谢。
我正在利比亚学习计算机工程课程的最后一年。
我的毕业项目名称是“使用分类器融合方法的孤立词的语音识别系统”。该项目的基本思想是,我输入一个数字(0-9)的 1 秒录音,它以文本的形式显示在屏幕上。我的步骤是:
因此,在我使用 MFCC 并提取了我的特征之后,我使用 MED 只是为了查看整个 ASR 系统,并直观地了解它应该如何工作。然后我从 DTW 分类器开始,老实说,我不确定我做得对,所以这里是代码,如果有人以前使用过 DTW 作为分类器,请告诉我使用 DTW 是个好主意,如果所以,我做对了吗???
test.mat 里面有两个变量 'm' 是第一名的口语,'b' 也是第一名的口语,但是每个都是单独记录的,然后我会保留'm',并比较它对录字二来说,1vs1的成本一定比1vs2小,但我的情况不是,这是为什么呢????
谢谢大家