问题标签 [audio-comparison]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - 比较 iOS 中的两个音频文件
我想录制两个声音并比较它们。我认为有一些用于录音的 Apple 示例代码。我不知道比较两个音频文件。什么是正确的方法?Apple 是否为此目的提供任何框架,或者是否有任何第三方框架?
c# - 声学音频比较库
我需要一个处理音频比较的软件或库,但不使用 mp3 内部的标签,它应该比较 2 个音频文件之间的相似性或置信度,或者如果我从音频文件中剪下一段,软件应该指出那个位置来自主音频文件的文件令牌(我希望我足够清楚)。
所以我听说这项技术叫做Audio Acoustic Comparing,基于一些音频样本文件,我们可以称之为指纹。如果软件在文件的某处找到输入样本或指纹的等价物,它应该指出我。
最好的。
hosting - 在服务器中存储 mp3 文件的最佳方法是什么?将其存储在数据库(BLOB)中,对吗?
我有一个音频站点,用户可以在其中上传他们的音乐文件,但问题是我不能购买昂贵的托管服务,因为我没有通过这项服务获利。我正在寻找一些快捷方式来存储 mp3 文件以减少一些托管成本。
在技术上或任何(托管)建议中做的最好的想法将是充分的帮助。
我需要尽可能地节省服务器空间。
algorithm - 如何检查一个音频是否出现在另一个?
例如,我有 2 个音频,一个是 A,另一个是 B。我想检查 B 是否出现在 A 中(如果 A 的一部分在某个阈值内与 B 相似),B 出现了多少次以及确切的次数是多少出现。有什么算法吗?或者一些例子已经做了类似的事情?
提前致谢。
autotools - ARM cortex m4 微控制器 (Teensy 3.1) 上的 Opus 音频编解码器 - GNU Auto 工具
我正在尝试将 Teensy 3.1 微控制器变成压缩录音机,所以我想压缩原始音频数据的缓冲区。经过研究,我发现Opus Codec是一个获得 ARM cortex M4 优化的开源音频编解码器项目,可以在浮点模式下工作(以及更多)。
我想我的问题在于 GNU Auto 工具
如何以我能够在微控制器上使用它的方式构建 opus 编解码器?
经过数周尝试使用 Opus 编解码器后,可以在 Arduino IDE 或任何其他 IDE 中工作我正在写这个问题
谢谢
compression - 采样和量化,计算输出
我想了解这个概念,我在多媒体课上遇到了一个我错过的问题,似乎我错过了一些东西。我不需要任何人为我做作业,而是帮助我了解我缺少什么,以便我自己应用它。我认为我缺乏对这个概念的理解,并且看到它的解决方法与在线和课堂资源不同。然而,这是完整的问题。
- 假设一个信号包含 2、8 和 10 kHz 的音调(谐波),并以 12 kHz 的速率进行采样(然后使用将输出限制为 6 kHz 的抗混叠滤波器进行处理)。输出中将包含哪些音调?
我的讲师课堂笔记仍然太技术性,我无法掌握它,并且在笔记中看起来可以使用“ f(alias)=f(sample)-f(true)
”来解决。我不知道如何应用它,因为我会这样应用它。
所以我会得到 10kHz、4kHz、2kHz
我的猜测是它是否包含在 6 kHz 的输出之下?所以这意味着 2kHz,而 4kHz 是输出中的两个音调?
但是我有一个同学这样解决
10,000 从哪里来?
而这个几乎相同的问题使用 1、10 和 21 kHz 的音调,仍然以 12 kHz 采样并这样求解
javascript - 音频/语音比较和getUserMedia
我正在构建一个需要语音激活命令的网络应用程序。我正在使用 getUserMedia 作为音频输入。
对于语音激活命令,过程是用户需要通过录制他/她的语音来“校准”命令。例如,对于“停止”命令,用户会说出“停止”一词,然后应用程序将保存音频片段。然后用户发出“停止”命令,他/她会说出“停止”这个词。
现在的问题是,有没有办法比较/识别用户从他/她之前“校准”/记录的预先录制的音频命令发出的命令(音频输入)?换句话说,比较来自另一个音频(文件)的音频流。希望任何人都可以指出我正确的方向,因为我已经为此研究了很长时间。
提前致谢。
注意:我不会像 SoundHound 那样比较/识别音乐。另外,我认为我不需要语音识别,这对于我需要的机制来说太复杂和不必要了。显然,如果没有语音识别,这即使不是不可能也很难做到。谁能推荐一个我可以试用的语音识别库/API(希望是 javascript)?
ios - 如何从两个音频文件中找到偏移量?一个是嘈杂的,一个是清晰的
我曾经有一个场景,用户使用表演者的实时音频捕获音乐会场景,同时设备正在从音频广播设备下载实时流媒体。后来我用我替换了实时嘈杂音频(录制时捕获)已流式传输并保存在我的手机中(优质音频)。现在我在合并时手动设置音频偏移量,并根据反复试验,以便我可以在确切位置同步音频和视频活动。
现在我想做的是自动化音频同步的过程。而不是在给定的偏移量处将视频与清晰的音频合并,我想通过适当的同步自动将视频与清晰的音频合并。
为此,我需要找到我应该用清晰的音频替换嘈杂的音频的偏移量。例如,当用户开始录制并停止录制时,我将获取实时音频的样本并与实时流式传输的音频进行比较并获取确切的音频该音频的一部分并在完美的时间同步。
有谁知道如何通过比较两个音频文件并与视频同步来找到偏移量。?
python - python通过比较语音(语音)进行人工身份验证
我正在使用人类语音创建一个人类身份验证系统。
因此,系统将有一个目录来保存人类语音,并将其与当前语音进行比较。
经过比较,它应该能够认出这个人。我不知道这是否可能。
目前,我能够做以下事情:
- 保存麦克风中的音频文件。
- 语音到文本的转换。
- 获取音频形状、持续时间和数据类型。
- 制作音频文件的图表。
代码:
对于语音比较,我尝试过:
- A_1 和 A_2 都具有相同的音频内容。它返回假
- 两种音频的Matplotlib图形都不同。
任何人都可以帮助我进行人类语音认证吗?