问题标签 [mfcc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - 语音识别 使用 MFCC 纠正发音
我正在用客观的 C/C++ 为 iOS 构建一个语音识别应用程序,以纠正说话者的发音。我正在使用Mel-Frequency-Cepstrum Coefficients
并匹配两个声波,DTW.
如果我错了,请纠正我。现在我想知道句子中的哪个单词(两个声音文件)不匹配。例如我的两个声音文件说话
我的算法应该通过某种指示指向第二个单词。
我使用了 Match-Box 开放库作为参考。这是它的链接。欢迎任何新算法或任何新库。
如果我在错误的地方发布了问题,请引导我找到正确的资源。
也欢迎任何小提示。
matlab - 将神经网络应用于可变长度语音段的 MFCC
我目前正在尝试创建和训练神经网络以使用 MFCC 执行简单的语音分类。
目前,我为每个样本使用 26 个系数,总共有 5 个不同的类别——这些是五个不同的单词,音节数量不同。
虽然每个样本的长度为 2 秒,但我不确定如何处理用户可以非常缓慢或非常快速地发音的情况。例如,在 1 秒内说出的单词“电视”与在两秒内说出的单词产生不同的系数。
任何有关如何解决此问题的建议将不胜感激!
mfcc - 使用 htk 测试系统时出错
我已经对系统进行了培训,但在测试系统时出现以下错误:-
**错误 [+6310] OpenParmChannel:无法打开 Parm 文件路径/T_TUPT_M0002_PN_10012_1.mfc
错误 [+6313] OpenAsChannel:OpenParmChannel 失败
错误 [+6316] OpenBuffer:OpenAsChannel 失败
错误 [+3250] ProcessFile:配置参数无效
如何消除此错误?
models - 说话人验证隐马尔可夫模型的 MFCC 矢量量化
我目前正在使用隐马尔可夫模型进行说话人验证项目。我选择 MFCC 进行特征提取。我也打算对它应用VQ。我已经实现了 HMM 并在 Eisner 的数据电子表格上对其进行了测试:http ://www.cs.jhu.edu/~jason/papers/并得到了正确的结果。
使用语音信号,我似乎错过了一些东西,因为我没有得到正确的接受(我使用前向算法进行了概率估计 - 没有应用缩放)。我想知道我可能做错了什么。我使用 scikits talkbox 的 MFCC 函数进行特征提取,并使用 Scipy 的集群进行矢量量化。这是我写的:
我假设 scikits 的 mfcc 函数的默认参数已经适合说话者验证。音频文件的采样率是 8000 和 22050。这里有什么我缺少的吗?我为 VQ 选择了 64 个集群。每个样本都是一个孤立的词。持续时间至少 1 秒。我还没有找到一个 Python 函数来删除语音样本中的静音,所以我使用 Audacity 手动截断静音部分。任何帮助,将不胜感激。谢谢!
matlab - MATLAB 神经网络泛化
我目前正在研究 MATLAB 中用于语音识别的神经网络,并已提取 MFCC 用于分类目的。目前每个 1 秒语音片段有 500 个特征,并且有五个不同的类别(即五个不同的词)
我正在使用两批不同的语音剪辑:一个是我用来训练神经网络的 500 个文件(以及根据 nprtool 的通常计算进行验证/测试)。另一个由 250 个文件组成,纯粹用于测试目的。两个批次都是一次性生成的。
使用第一批,我能够获得近乎完美的训练/验证/测试准确度(95-100%)。但是,当我尝试使用第二批(即单独的 250 个文件)进行测试时,准确率下降到 20%。由于有五个类别,这最初让我认为神经网络只是随机选择类别。然而,查看混淆矩阵,似乎第一类被识别为 95-100% 的准确率 - 但是其他语音文件被完全错误分类。
我的第一个想法是过度拟合以某种方式发生了。我知道 nprtool 使用 MapMiniMax 函数进行标准化 - 这会破坏神经网络的泛化特性吗?还是在我缺少的培训和测试之间还有另一个步骤?
提前致谢。
vector - Python - 聚类 MFCC 向量
我目前正在使用隐藏马尔可夫模型做一个说话人验证项目,还没有准确的语音信号结果,尽管我已经测试了系统的各种数据样本(不涉及语音)。
我使用 scikits talkbox 提取了语音信号的 MFCC。我假设不必更改任何参数,并且默认参数已经适合此类项目。我怀疑我的问题在于 mfcc 向量的向量量化。我使用 scipy 的 kmeans 聚类函数选择了 kmeans 作为我的算法。我想知道这种工作是否有规定数量的集群。我最初将我的设置为 32。我的语音文件的采样率为 8000 和 22050。哦,另外,我录制了它们并使用 Audacity 手动删除了静音。
有什么建议么?
speech-recognition - 如何从 mfcc 系数中提取特征
我已经成功提取了 MFCC 系数,并且得到了以下值
现在如何从这些值中提取特征。谢谢
speech-recognition - MFCC特征提取结果矩阵可以有负值吗?
我正在使用 MFCC 来提取特征来实现语音识别器我坚持使用 HMM 实现。我正在为 HMM 使用 Kevin Murphy 工具箱。我的 MFCC 结果矩阵包含负值,这可能是我得到的情况,我的 MFCC 代码是否错误。以下是我得到的错误 -
此外,如果有人知道 HMM 的任何 Matlab 源代码的链接,请提供我的最终项目。我正在尝试实现语音识别器,但不知道提取特征向量后该怎么做。
这是整个 MatLab 代码(我正在使用 kevin murphy HMM Toolkit,错误在 dhmm_em 函数中):
java - SpeechRecognition API:如何获取语音特征(MEL 系数)
我打算为 Android 实现一个说话者验证应用程序,并且想知道是否有办法从 Android 的语音识别模块中获取语音功能(MEL 系数)?
请注意,说话人验证与语音识别略有不同,这就是我不直接使用语音识别的原因。