0

最近,我和我的伙伴开发了一种使用神经网络进行研究的和弦识别工具。对于输入,我们使用来自音高等级配置文件的结果。

每个音级有 12 个输入表示。输出为 5 个节点。我们根据输入训练神经网络,例如:

for chord c major: input: 1 0 0 0 1 0 0 1 0 0 0 0 and output: 1 0 0 0 0.

当我们使用 测试它时c major.wav,来自音级轮廓方法结果的实际输入显示了良好的结果。c大调的3个基本音符比其他音符更占优势,但数值太小,即:

c: 0.7123345
c#: 0.00024521
d:0.00013312
e: 0.009123
f:0.445023
f#:0.0535852
g:0.000312
g#:0.51023
a:0.0002312
a#:0.1034
b:0.003122
b#:0.000102

如果我们手动检查,我们可以看到 c、f 和 g 应该是占主导地位的,但是当我们使用神经网络检查时,结果并不是我们想要的。我们可以做些什么来改善这一点?

4

0 回答 0