1

我一直在开发一种工具来比较第一天录制的音频文件和三十天后录制的另一个音频文件。我的培训是语言学,这个工具将用于对独特的录音数据库进行编目、索引和比较。我知道诸如 MusicBrainz 或 EchoNest 之类的商业级 API,但不能将它们用于该项目。所有文件都必须存储在本地,不能贡献给在线数据库。

目前,我有每个文件的频谱图和一个可以转换为几乎任何声音文件的批处理转换器。我使用频谱分析仪来精确匹配频谱图(如哈希图叠加),并且能够以 96% 的准确度匹配我的结果。但是,随着我的项目的增长,我的存储需求对于这种方法来说将变得太高了。

我的想法是这样的——如果我可以将音频文件调整为相似的帧速,我应该能够对声学数据进行散列编码并将散列字符串存储在一个简单的 SQL 表中,而不是整个音频文件或频谱图。我不想散列整个文件 - 只是为了匹配声学。我通过 Python(dejavu、libmo 等)找到了一些矫枉过正的解决方案,但作为语言学家,而不是计算机人员,我不确定新手是否可以为散列音频数据的代码争吵

我希望有一种方法可以在下周左右创建哈希值(或另一个校验和)。来自 interwebz 的想法?

4

0 回答 0