34

我一直在关注 DeepLearning.net 上的教程,学习如何实现从图像中提取特征的卷积神经网络。该教程解释得很好,易于理解和遵循。

我想扩展相同的 CNN 以同时从视频(图像 + 音频)中提取多模态特征。

我知道视频输入只不过是在一段时间内(例如 30 FPS)显示的与音频相关的一系列图像(像素强度)。但是,我真的不明白什么是音频,它是如何工作的,或者它是如何被分解以馈送到网络中的。

我已经阅读了几篇关于该主题的论文(多模态特征提取/表示),但没有人解释音频是如何输入到网络的。

此外,我从我的研究中了解到,多模态表示是我们大脑真正工作的方式,因为我们不会故意过滤掉我们的感官来实现理解。这一切都是同时发生的,我们通过(联合表示)不知道它。一个简单的例子是,如果我们听到狮子吼叫,我们会立即在脑海中形成狮子的形象,感到危险,反之亦然。我们的大脑中激活了多种神经模式,以全面了解狮子的外观、声音、感觉、气味等。

上面提到的是我的最终目标,但为了简单起见,我暂时将我的问题分解。

如果有人能阐明如何剖析音频,然后在卷积神经网络中表示,我将不胜感激。我也会感谢您对多模态同步、联合表示以及使用多模态数据训练 CNN 的正确方法的想法。

编辑: 我发现音频可以表示为频谱图。它是音频的常见格式,并表示为具有两个几何维度的图形,其中水平线代表时间,垂直线代表频率。

在此处输入图像描述

是否可以对这些频谱图上的图像使用相同的技术?换句话说,我可以简单地将这些频谱图用作卷积神经网络的输入图像吗?

4

2 回答 2

20

我们在频谱图上使用深度卷积网络进行口语识别任务。在本次 TopCoder 竞赛中提供的数据集上,我们的准确率约为 95% 。详情在这里

普通卷积网络不捕捉时间特征,因此例如在这项工作中,卷积网络的输出被馈送到时延神经网络。但是我们的实验表明,即使没有额外的元素,当输入具有相似的大小时,卷积网络至少在某些任务上也能表现良好。

于 2015-10-11T12:04:33.363 回答
9

有许多技术可以从音频数据中提取特征向量以训练分类器。最常用的称为 MFCC(梅尔频率倒谱),您可以将其视为“改进的”频谱图,保留更多相关信息以区分类别。其他常用的技术是 PLP(感知线性预测),它也给出了很好的结果。这些还有许多其他鲜为人知的。

最近,深度网络已被用于自行提取特征向量,因此与我们在图像识别中所做的方式更相似。这是一个活跃的研究领域。不久前,我们还使用特征提取器来训练图像分类器(SIFT、HOG 等),但这些被深度学习技术所取代,深度学习技术将原始图像作为输入并自行提取特征向量(实际上这就是深度学习真的所有关于)。

注意到音频数据是连续的也很重要。训练分类器后,您需要将序列模型训练为 HMM 或 CRF,它选择最可能的语音单元序列,使用分类器给出的概率作为输入。

学习语音识别的一个很好的起点是 Jursky 和 ​​Martins:语音和语言处理。它很好地解释了所有这些概念。

[编辑:添加一些可能有用的信息]

有许多带有模块的语音识别工具包可以从音频文件中提取 MFCC 特征向量,但为此目的使用比并不总是那么简单。我目前正在使用CMU Sphinx4。它有一个名为 FeatureFileDumper 的类,可以独立使用从音频文件生成 MFCC 向量。

于 2014-05-24T01:54:15.097 回答