我想构建一个生成钢琴卷的 GAN(我将描述的与真正的钢琴卷不同,但可以被认为是它们的变体)。因此,我的第一个问题是我需要一个鉴别器网络来判断钢琴卷是真还是假。
钢琴卷是一个二维矩阵,因此可以将其可视化为图像。但它看起来一点也不像人脸、猫和狗的图像,因此用于对图像进行分类的“正常”深度学习技术不太可能奏效。所以我需要关于什么可行以及研究人员尝试过什么的建议。
我的数据格式是 64x4 矩阵,因此有 64 个时间步长,最多可以同时播放四个音符。每个非零单元格表示音符的开始,整数值表示音符的音高。所以 1 是最低音,48 是最高音(总共四个八度)。
以下是这些“钢琴卷”的外观示例。您必须使用不会模糊像素的图像查看器放大才能看到它们。每个矩形都是一个钢琴卷。每个像素代表一个音符的开始。我已经对它们进行了颜色编码,因此红色阴影用于不同八度的 C 音符,绿色用于 D 音符等等。灰色是背景色,代表没有注释。网络应该将它们归类为“真实的”。
以下是“假”钢琴卷的示例。这些是随机生成的,然后使用上述方案进行颜色编码。网络应将它们归类为“假”。