问题标签 [audio-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
vb.net - 声音样本的数学分析(作为数字数组)
我需要找到一个样本的频率,以字节数组的形式存储(在 vb 中)。样本是一个正弦波,已知频率,所以我可以检查),但数字有点奇怪,而且我的 maths-foo 很弱。值的全范围 0-255。99% 的数字在 235 到 245 的范围内,但有一些异常值低至 0 和 1,其余 1% 中高达 255。我如何对其进行标准化以消除异常值,(计算 235-245 区间,因为它可能会随着不同的样本而变化),然后我如何计算过零以获得频率?抱歉,如果这个描述是垃圾!
audio - Verizon SongID - 它是如何编程的?
对于不熟悉 Verizon 的 SongID 程序的任何人,它是一个免费的应用程序,可通过 Verizon 的 VCast 网络下载。它会在歌曲的任何时候听一首歌 10 秒钟,然后将此数据发送给一些无所不知的算法野兽,它会咀嚼它并将所有 ID3 标签(艺术家、专辑、歌曲等)发回给你。
前两部分和最后一部分很简单,但是在发送录制的声音之后的处理过程中发生了什么?
我认为它必须获取声音文件(什么格式?),解析它(如何?用什么?)一些关键标识符(这些是什么?波函数的常规属性?相位/位移/幅度/等),并检查它针对数据库。
我在网上找到的所有关于它是如何工作的都是通用的,就像我在上面输入的一样。
该服务基于复杂的音频识别算法,结合了先进的音频指纹技术和大型歌曲数据库。当您上传音频文件时,音频引擎正在对其进行分析。在分析过程中,通过将其与音乐数据库进行比较来提取和识别其音频“指纹”。在此识别过程完成时,屏幕上会显示有关歌曲及其匹配概率的信息。
python - 使用 Python 2.6 对音频文件进行快速频谱分析?
我想要做的是有一个子程序,它每 200 毫秒分析一次它给出的声音文件,并将特定频率范围的频率强度值(从 0 到 1 作为浮点数)吐出到我稍后的数组中节省。然后,该值将继续用作应该“频闪”到音频文件的图形的不透明度值。
问题是,我以前从未涉足音频分析,也不知道从哪里开始。我看过 pymedia 和 scipy/numpy 认为我可以使用 FFT 来实现这一点,但我不确定如何操纵这些数据以得到预期的结果。pymedia 的 SpectrAnalyzer 类的文档几乎不存在,并且网站上的示例实际上不适用于该库的最新版本 - 这并没有让我的生活更轻松。
我将如何开始这个项目?对于我什至应该使用哪些库,我完全不知所措。
c# - 来自字节数组的卷
我是音频分析的新手,但需要执行一项(看似)简单的任务。我有一个包含 16 位录音(单通道)和 44100 采样率的字节数组。如何执行快速分析以在任何给定时刻获取音量?我需要计算一个阈值,所以如果它高于某个幅度(音量),则函数返回 true,否则返回 false。我以为我可以遍历字节数组并检查它的值,其中 255 是最响亮的,但这似乎不起作用,因为即使我不记录任何东西,背景噪音进入并且一些数组充满了255. 任何建议都会很棒。谢谢
real-time - 我可以使用 Corona SDK 进行实时音频分析吗
我正在考虑开始使用简单的移动应用程序开发。Corona SDK看起来非常适合我想玩弄的一些想法。我想知道是否可以用它进行实时音频分析?例如,我可以用 Corona 构建一个简单的吉他调音器吗?
signal-processing - 乐谱的音频分析
我目前正在开发一个程序,该程序分析独奏音乐家演奏乐器的 wav 文件并检测其中的音符。为此,它执行 FFT,然后查看生成的数据。目标是(在某个时候)通过编写一个 MIDI 文件来制作乐谱。
我只是想就它可能有什么困难得到一些意见,是否有人以前尝试过,也许有一些东西可以研究一下。目前,我最大的困难是并非所有音符都纯粹是一个频率,而且我还无法检测和弦;只是一个音符。我检测到的音符之间也必须有一个停顿,所以我确定一个已经结束,另一个开始了。对此的任何评论也将非常受欢迎!
这是我在从信号中进入新帧时使用的代码。它寻找样本中最主要的频率:
python - 使用 Python 测量音频“响度”
我正在寻找使用 Python 计算一段音频的响度——可能是通过提取一段音频的峰值音量,或者可能使用更准确的测量值(RMS?)。
最好的方法是什么?我看过pyaudio,但这似乎并没有达到我想要的效果。看起来不错的是ruby-audio,因为这似乎已经sound.abs.max
内置在其中了。
输入音频将取自各种持续时间约为 30 秒的本地 MP3 文件。
iphone - 用于解压缩格式的 iOS 高级音频 API
在 iOS 上,是否可以以解压缩格式获取用户的音频流?例如,将 MP3 作为可用于音频分析的 WAV 返回?我对 iOS 平台比较陌生,我记得在旧的 iOS 版本中这是不可能的。我读到 iOS 4 引入了一些高级 API,但我不确定在哪里可以找到这些的文档/示例。
audio - FFT - 何时开窗?
我在这里看到了各种 FFT 问题,但我对部分实现感到困惑。我不想实时执行 FFT,而是想离线执行。可以说我有原始数据float[] audio
。采样率为 44100,因此audio[0] to audio[44099]
将包含 1 秒的音频。如果我的 FFT 函数处理窗口(例如 Hanning),我是否只需将整个audio
缓冲区一次性放入函数中?或者,我是否必须将音频切成 4096(我的窗口大小)的块,然后将其输入到 FFT 中,然后在顶部执行窗口功能?
iphone - 文件解压内存占用
我想在 iOS 上离线处理音频,但对内存使用情况有疑问。如果我使用 AVAssetReader 将 MP3 解压缩为原始 PCM 数据,那么内存占用会很大。那么,如果解压缩会导致应用程序使用过多内存,我将如何处理(离线 FFT)一个 mp3 文件?我想我必须以某种方式流式传输它,但我不知道如何在 iOS 中做到这一点。