我正在寻找一个使用 Caffe 基于 CNN 的一维信号分类(例如语音信号)的简单直接的示例。
在Caffe网站上,可以了解一些图像分类任务的示例和教程。相反,我正在寻找有关一维信号的示例和教程。
非常感谢您的回答。
从概念上讲,使用 1D 数据与 2D 数据之间没有有意义的区别。您需要一个数据库,而不是 2D 图像,您将拥有 1D 形状“图像”(通道:1,高度:1,宽度:d),并确保所有内核都使用kernel_w和kernel_h而不是kernel_size(它将内核设置为方形)。
如果您正在寻找可以使用的示例架构,您可以参考这篇文章来训练原始波形语音数据上的 CNN:来自原始多通道波形的语音声学建模。
Caffe 的 Github 页面上还有一个未解决的问题,要求提供语音域的示例,您可以查看更多指向潜在实现的链接。