0

我正在尝试实现一个神经网络,该网络在一个轴上输入音符/音高,在另一个轴上输入该音符的八度音阶。

输入应该通过卷积层(Conv2DLayer)。卷积之后,输出应该通过 LSTM 层。

输入 -> 卷积和池化层 -> LSTM 层 -> 输出

问题是 LSTM 层和卷积层具有特定的输入形状

Conv2DLayer 预期输入形状:(batch_size, num_channels, rows, columns) LSTMLayer 预期输入形状:(batch_size, sequence_len, num_inputs)

如何获取形状(batch_size、sequence_len、num_channels、行、列)或类似的输入并构建这样的网络?如果我通过删除 sequence_len 来重塑和展平形状,那么行或列都必须改变,并且形状将被扭曲。

4

0 回答 0