speech - 使用 Caffe 的基于 CNN 的一维信号分类

Question

我正在寻找一个使用 Caffe 基于 CNN 的一维信号分类（例如语音信号）的简单直接的示例。

在Caffe网站上，可以了解一些图像分类任务的示例和教程。相反，我正在寻找有关一维信号的示例和教程。

非常感谢您的回答。

score 2 · Accepted Answer

从概念上讲，使用 1D 数据与 2D 数据之间没有有意义的区别。您需要一个数据库，而不是 2D 图像，您将拥有 1D 形状“图像”（通道：1，高度：1，宽度：d），并确保所有内核都使用kernel_w和kernel_h而不是kernel_size（它将内核设置为方形）。

如果您正在寻找可以使用的示例架构，您可以参考这篇文章来训练原始波形语音数据上的 CNN：来自原始多通道波形的语音声学建模。

Caffe 的 Github 页面上还有一个未解决的问题，要求提供语音域的示例，您可以查看更多指向潜在实现的链接。

1 回答 1