0

我正在开发一个识别音素的项目,以便能够识别某人是在说“是”还是“否”。

到目前为止,在项目中,我已经使用过零来识别这个人在说什么,这非常有效,而且看起来很容易理解。然而,该项目需要一些改进,并且必须使用隐马尔可夫模型进行开发。

我的问题是这样的:

我想开发一个隐马尔可夫模型,而不删除我已经完成的工作。即,我通过计算过零的数量以及块的总和来去除不值得考虑的数据。

我不明白我需要什么数据来训练 HMM 才能识别这些音素。例如

对于过零,我已经确定:

是 - 过零开始低,然后值增加

否 - 零交叉点从低位开始,然后不随值增加。

我可以训练我的 HMM 算法以便它解释这些值吗?

或者任何人都可以建议一种方法,我可以训练 HMM 以识别样本中输入的单词?

希望有人可以提供帮助:)!

4

2 回答 2

2

我可以训练我的 HMM 算法以便它解释这些值吗?

当然是

或者任何人都可以建议一种方法,我可以训练 HMM 以识别样本中输入的单词?

您只需将零交叉率与第 14 个特征等 MFCC 特征一起放入特征文件中,并使用任何标准 HMM 训练工具包(如 CMUSphinx 或 HTK)来训练 HMM 并使用它进行解码。有关更多信息,请参阅

http://cmusphinx.sourceforge.net/wiki/mfcformat

或者

http://speech-research.com/htkSearch/index.php?ID=297039

http://speech-research.com/SRTxt2User/index.html

于 2012-11-17T07:49:25.843 回答
0

自动音素分割是一个棘手的问题,因此我将提供一些我喜欢的资源,这些资源以各种详细程度触及该主题。

本文: http ://www.seas.upenn.edu/~jan/Files/Iscas99Speech.pdf

本文: http ://www.ll.mit.edu/publications/journal/pdf/vol08_no2/8.2.1.languageidentification.pdf

这个资源很好: http ://research.microsoft.com/pubs/118769/Book-Chap-HuangDeng2010.pdf

这本书给出了一些音素识别的好例子:http: //www.amazon.com/Speech-Recognition-Theory-C-Implementation/dp/0471977306/

这本书也不错: http ://www.amazon.com/Statistical-Methods-Recognition-Language-Communication/dp/0262100665/

这些书很贵,但值得(在我看来)

于 2012-11-16T22:11:32.073 回答