1

我想使用 sphinx4 或 HTK 工具包为我构建一个语音识别应用程序,旨在从语音中估计一个人的年龄。我在更大程度上了解语音识别中涉及的统计模型。我对梅尔频率倒谱系数和高斯混合模型很感兴趣,因为这两个模型更适合我的问题域。我是否必须使用神经网络并从 sphinx 分类器派生的向量中输入训练数据?我不太确定从哪里开始使用 sphinx 或 HTK 工具包。我是狮身人面像和语音识别的新手,我的应用程序只是一个原型。

任何人都可以在这方面提供某种形式的指导。亲切的问候。

4

2 回答 2

0

我决定不使用 Sphinx 4,因为它基于隐马尔可夫模型,该模型主要用于序列分析,例如语音识别,甚至是基于输入序列的接口的多模式输入。Insted 我使用了一个名为 Praat 的软件,它用于语音处理和合成。如果您愿意,还有一个“插件”,称为“Akustyk”,用于分析元音等。可能这个方向对你有价值,我不确定。

然后,您可以使用 mathlab 并使用模式识别工具箱来实现您的神经网络、GMM 或您希望采用的任何方法。

希望对您有所帮助。

于 2010-05-05T18:43:59.287 回答
0

通常,开始此类事情的第一个地方是从学术界寻找先前的相关工作。在Minematsu 等人。2002 年,他们在 mel 频率倒谱系数上使用高斯混合模型 (GMM) 来区分老少说话者。

据推测,如果您可以访问年老和年轻演讲者的训练数据,您应该也可以这样做。即使您想尝试其他分类器后端,例如神经网络,最好从 GMM 开始,因为您知道它们应该适用于您的任务,并且它们会为您提供与任何其他分类器进行比较的东西你想尝试使用。

如果您只是为了好玩或作为研究项目这样做,我建议您使用 HTK,因为我喜欢它的模块化程度。但是,如果这是出于商业目的,您可能应该使用 Sphinx,因为它可以在类似 BSD 的许可证下重新分发。

于 2010-01-19T04:35:55.470 回答