问题标签 [audio-fingerprinting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java中的音频指纹识别系统
是否有任何以纯 Java实现的音频指纹识别系统( PUID等)(用于在 Android 上运行)?
audio-fingerprinting - 有人对 Linux 的任何 songCatcher 库有任何想法吗?或者关于如何使用“Audio-Ofa-Util-0.04”的任何想法?
有人对 Linux 的任何 songCatcher 库有任何想法吗?songCatcher 基于声学指纹。
我设法找到了一个“Audio-Ofa-Util-0.04”,但我在使用它时遇到了问题。或者,如果有人可以帮助我了解它的用法。喜欢: > 我怎样才能将音频文件传递给这个工具。
任何用于其使用的特定命令等。
任何帮助将不胜感激。
谢谢,鲍比
java - 音频指纹库(java)
是否有任何用 Java 编写的音频指纹库?类似于用 C++ 或 C# 编写的libofa 。
audio - Verizon SongID - 它是如何编程的?
对于不熟悉 Verizon 的 SongID 程序的任何人,它是一个免费的应用程序,可通过 Verizon 的 VCast 网络下载。它会在歌曲的任何时候听一首歌 10 秒钟,然后将此数据发送给一些无所不知的算法野兽,它会咀嚼它并将所有 ID3 标签(艺术家、专辑、歌曲等)发回给你。
前两部分和最后一部分很简单,但是在发送录制的声音之后的处理过程中发生了什么?
我认为它必须获取声音文件(什么格式?),解析它(如何?用什么?)一些关键标识符(这些是什么?波函数的常规属性?相位/位移/幅度/等),并检查它针对数据库。
我在网上找到的所有关于它是如何工作的都是通用的,就像我在上面输入的一样。
该服务基于复杂的音频识别算法,结合了先进的音频指纹技术和大型歌曲数据库。当您上传音频文件时,音频引擎正在对其进行分析。在分析过程中,通过将其与音乐数据库进行比较来提取和识别其音频“指纹”。在此识别过程完成时,屏幕上会显示有关歌曲及其匹配概率的信息。
language-agnostic - 按数据库(数百万)、指纹查找重复的视频文件?模式识别?
在以下场景中:
我有一个项目,目前有大约一万个视频文件的目录,这个数字会急剧增加。
但是其中很多是重复的。对于每个视频文件,我都有关联的语义和描述性信息,我想合并重复的内容以获得更好的结果。
现在我需要某种程序来索引数据库中的元数据,并且每当新视频进入目录时,都会计算相同的数据并在数据库中进行匹配。
问题是视频不是完全重复的。它们可以有不同的质量、经过裁剪、加水印或有续集/前传。或者在开始和/或结束时被切断。
不幸的是,比较越好,cpu 和内存越密集,所以我计划实施几层比较,从非常优雅但快速的比较开始(可能视频长度有 10% 的容差),最后是决定是否它真的是重复的(那将是社区投票)。
因此,由于我有一个社区来验证结果,因此只需提供“良好的猜测”且未命中率低就足够了。
所以现在我的问题是你们能想到哪些层,或者你们有更好的方法吗?
我不在乎创建元数据的努力,我有足够的奴隶来做到这一点。只是比较应该很快。因此,如果它有帮助,我也可以将视频转换 100 次......
以下是我目前的想法:
视频长度(秒)
第一帧和最后一帧图片分析
我会将图片重新采样为缩略图大小并获取平均 rgb 值,然后如果该像素的颜色大于/小于 0 或 1 表示的平均值,则逐像素序列化。所以我得到一个二进制字符串,我可以存储到mysql 并进行布尔位求和(mysql 内部支持)并计算剩余的 uneval 位(内部也支持,这将是二进制字符串的 Levenshtein 距离)
- 使用相同的 vbr 编解码器随时间推移比特率的发展
我会将视频转码为具有完全相同设置的 vbr 视频文件。然后我会查看特定时间点的比特率(视频完成的百分比或绝对秒数......然后我们只会分析视频的一部分)。和图片一样。如果比特率大于平均值,则为 1,否则为 0。我们创建一个二进制字符串并将其存储在 db 中,然后计算 Levenshtein 距离
音频分析(比特率和分贝随时间的变化,就像视频的比特率一样)
关键帧分析
图像comarision就像第一帧和最后一帧但在关键帧位置?我们将使用与比特率计算相同的源文件,因为关键帧依赖于编解码器和设置。
- 随着时间的推移颜色的发展
也许让我们在图像中取一个或多个区域/像素,看看它们随着时间的推移如何发展。以及高于/低于平均水平的变化。我认为黑色/白色就足够了。
- 将建议提交给用户以供最终批准...
还是我走错了路?我想我不能成为第一个遇到这个问题的人,但我没有找到解决方案的运气。
project - 音频指纹识别的独特(或半独特)应用的想法
我是最后一年的计算机本科生,正在为我最后一年的项目寻找一个独特的(或半独特的)音频指纹应用程序。我最初的想法是有一个程序来找出用户正在哼唱的歌曲,通过使用音频指纹。但我进行了搜索,发现有人已经实现了它(我可能会添加完美)。任何关于我如何调整它的建议(它不一定是全新的)或在类似领域衍生一些东西,我们将不胜感激。
PS提前谢谢你。
(PPS我不需要做一个完整的实现,只是我选择的核心部分或必不可少的部分)
c# - 如何从音频文件中获取 musicbrainz 曲目信息
谁能告诉我如何使用音频指纹从音频文件(mp3、wav、wma、ogg 等)中从MusicBrainz数据库中获取曲目信息。我正在使用 MusicBrainz Sharp 库,但任何其他库都可以。
我已经看到你必须使用 libofa 库,你不能使用 MusicBrainz Sharp 从音频文件中获取 puid,但我不知道如何在 C# 中使用 libofa。
请展示一些示例和代码片段来帮助我,因为我在任何地方都找不到它们。
提前致谢!
java - 是否有任何用于音频指纹识别的 Java 工具?
我已经开发了超过 10 年的 Java 小程序,它提供带有智能反馈的语言学习练习,而我现在急需的是一个音频指纹模块,它的工作原理如下:
- 要求学生将单词或短语列表一一朗读到麦克风中。
- 然后学生进行一项练习,其中问题的正确答案将是先前记录的单词或短语之一。学生必须对着麦克风说出答案。
- 该模块必须音频记录单词和短语的原始列表,然后是学生说出的答案。
- 它必须将练习中产生的声音文件与学生最初录制的声音文件进行比较,并确定学生在答案中使用了初始列表中的哪些单词或短语。如果答案是正确的或不正确的,将采取适当的行动,就像答案已被输入并作为字符串进行比较一样。
您是否知道已经在 Java 中完成了类似的操作,并且可以将其合并到像我这样的小程序中?
web-services - 用于识别未标记 mp3 的服务
是否有我可以从程序调用的开源服务,它传递有关未标记的 mp3 的信息,并以有关歌曲的详细信息(例如艺术家、专辑、曲目等)进行响应?如果没有,是否有替代方法可以用来识别歌曲?
audio - 开源音频模式识别(指纹)
是否有任何开源音频指纹识别解决方案提供“类似 Shazam”的解决方案?
Shazam使用来自Landmark digital的商业解决方案,但我正在寻找一种替代方案(即使准确性和性能较差)开源解决方案。
任何人都知道这种实现,甚至是已发布的未实现算法吗?