1

我目前正在使用 cnn 进行音素识别。

我的数据集已标记,但我有点不确定如何确保特征向量的长度也将根据音频文件的长度。

我对 CNN 的输入目前是 mel-log 滤波器能量的频谱图可视化,其中 y 轴是不同的频带,x 轴是包含帧。

在此处输入图像描述

对于上面给定的示例是句子:

fmjc-b-an118 RUBOUT J L Y Z TWO

和音素:

RUBOUT: R AH B AW T

J: JH EY

L: EH L

Y: W AY

Z: Z IY

TWO: T UW

在 249 帧中总共有 15 个音素。近 17 帧公关。每个音素。

但在这儿: 在此处输入图像描述

是对它说的文字/单词:

fbbh-b-an90 NO
NO: N OW

总共 97 帧中的 2 个音素 = 每个音素 49 帧。

那么如何创建一个输入形状来捕获音频文件将具有的数字音素?

编辑:

我认为我认为可以重新创建输入/输出关系的唯一方法是提供一帧的输入形状,但系统是否能够在短时间内检测到不同类别的音素,并且仍然如果没有可用的,说“无”?

这将要求输出形状包含每个帧的类,这需要我知道每个音素的持续时间,这应该是可能

但是,是否有可能在给定一帧的情况下检测到音素?

4

1 回答 1

-1

我有一个建议,我认为这不一定是一个好建议,但我确实认为它会起作用。

如果您尝试做的是训练以便无论音素跨越多少帧都能被识别,您可以尝试通过一些随机系数对训练特征进行时间缩放。这是在 OpenCV 中的一些特征提取器上完成的,以使图像特征具有尺度不变性。我认为,如果您将其应用于音频,它可能会使其速度不变。我意识到这可能会导致您的训练功能数量爆炸式增长,因此另一种方法是扩展您尝试识别的输入,而不是训练的输入。您也许可以将所有训练特征缩放到相同的帧/特征速率,然后将所有输入缩放到相同的速率。这可能是完全不可能的,我不是机器学习专家。祝你好运

于 2017-03-19T20:02:55.763 回答