我正在为教育目的工作/研究一个项目构想,并想做一个关于语音识别的项目,没什么大不了的,只是一个让我开始进入该领域的介绍。基本上,项目和算法将输入一个 (.wav) 文件,然后识别说话的人是说“是”还是说“否”。我正在寻找使用线性预测编码。
基本上,在我的脑海中,我正在考虑以下算法:
- 将 .wav(原始数据)读入向量
- 将向量分成大小相等的块
- 针对特定特征处理每个块
- 找到其模型最有可能与产生的音素字符串匹配的单词。
然后我想使用相关性等相似性度量来找到正确的电话。
因此,基本上,在读入数据文件并拆分为块之后。它应该/将包含如下内容:
rawdata =
[0] => 'Y',
[1] => 'E',
[2] => 'S'
或者将包含频率结果,然后可以与电话进行比较。
我的问题是,这看起来像是解决问题的好算法吗?
我的下一个问题:
当我尝试将 .wav 文件读入内存时,我得到(某种)以下结果..
20 30 10 30 40 50 .. 20 20 .. 10 20 .. 60 40
10 20 30 40 50 60 ... .. . . . .
它们都是整数值,所以,一旦我获取了所有标题信息.. 剩下的数据就是我需要转换成正确的介质然后这就是数据..?我有点困惑。
希望有人可以帮助我,并且,我已经正确地写出了问题。谢谢。