我目前正在使用 cnn 进行音素识别。
我的数据集已标记,但我有点不确定如何确保特征向量的长度也将根据音频文件的长度。
我对 CNN 的输入目前是 mel-log 滤波器能量的频谱图可视化,其中 y 轴是不同的频带,x 轴是包含帧。
对于上面给定的示例是句子:
fmjc-b-an118 RUBOUT J L Y Z TWO
和音素:
RUBOUT: R AH B AW T
J: JH EY
L: EH L
Y: W AY
Z: Z IY
TWO: T UW
在 249 帧中总共有 15 个音素。近 17 帧公关。每个音素。
是对它说的文字/单词:
fbbh-b-an90 NO
NO: N OW
总共 97 帧中的 2 个音素 = 每个音素 49 帧。
那么如何创建一个输入形状来捕获音频文件将具有的数字音素?
编辑:
我认为我认为可以重新创建输入/输出关系的唯一方法是提供一帧的输入形状,但系统是否能够在短时间内检测到不同类别的音素,并且仍然如果没有可用的,说“无”?
这将要求输出形状包含每个帧的类,这需要我知道每个音素的持续时间,这应该是可能的。
但是,是否有可能在给定一帧的情况下检测到音素?