audio - 使用受限玻尔兹曼机提取音频特征

Question

我想使用 RBM（受限玻尔兹曼机）提取音频特征。为此，我将频谱图（PCA 白化）作为 RBM 的输入。
对于每个音频文件，频谱图是一个没有编号的矩阵。列数固定，但每个音频文件的行数不同。我的问题是如何训练我的 RBM，或者如何使用 RBM 从音频中提取特征，给定这个频谱图矩阵。我在 Honglak Lee 的一篇论文中读到，论文标题为 Unsupervised Feature Learning for Audio Classification using convolutional deep confidence networks。http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2009_1171.pdf
“然后我们训练了 300 个第一层基础，过滤器长度为 6，最大池化比率为 3。”
首先，这里的基地是什么意思。（他们使用了卷积深度信念网络，所以我想，这里的基数并不意味着权重）。
其次，使用过滤器长度为 6 是什么意思？我该怎么做？任何提示将不胜感激。（我是 RBM 的新手）

score 0 · Accepted Answer

我认为这里令人困惑的是他们在他们的深度信念网络中添加了一个卷积层。卷积层的想法是他们使用特定于图像小区域的内核，在他们的例子中是一个 6 元素窗口。我不是音频问题的专家，但我相信基础是指光谱仪中的不同频段。

audio - 使用受限玻尔兹曼机提取音频特征

1 回答 1

Related

Reference