我正在寻找一些关于我应该研究哪些技术/算法来解决以下问题的指导。我目前有一种算法,可以使用声学指纹对听起来相似的 mp3 进行聚类。在每个集群中,我拥有每个文件的所有不同元数据(歌曲/艺术家/专辑)。对于该集群,我想选择与数据库中现有行匹配的“最佳”歌曲/艺术家/专辑元数据,或者如果没有最佳匹配,则决定插入新行。
对于一个集群来说,一般都有一些正确的元数据,但是个别文件有很多类型的问题:
- 艺术家/歌曲完全错误命名,或只是稍微拼写错误
- 缺少艺术家/歌曲/专辑,但其余信息都在那里
- 这首歌实际上是现场录音,但只有集群中的一些文件被标记为这样。
- 元数据可能很少,在某些情况下只有文件名,可能是艺术家 - song.mp3,或艺术家 - 专辑 - song.mp3,或其他变体
一个简单的投票算法效果很好,但我想要一些我可以在大量数据上训练的东西,这些数据可能会比我现在得到的更多细微差别。任何指向论文或类似项目的链接将不胜感激。
谢谢!