问题标签 [audio-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2649 浏览

opengl - What kind of sound processing algorithm allows you to make visualizations like this?

I'm interested in making an OpenGL visualizer for MP3's as a pet project.

I stumbled upon this youtube video which demonstrates someone showing off a visualizer being used in conjunction with Augmented Reality.

http://www.youtube.com/watch?v=SnshyLJSpnc#t=1m15s

Please watch that video, but ignore the augmented reality aspect of that video. I'm only interested in making a Visualizer, not augmented reality.

What kinds of algorithms were used to generate those patterns in relation to the music? If you watch, you can see what looks like several different methods of visualization. The first one has a distinct look:

The first one looked like waves moving over the rendering area: alt text

Another "mode" seemed to have the visualization move around the center in concentrict circles: alt text

Anyone who is well versed in Audio Programming, what kinds of algorithms could be used to generate similar looking visualizations? What kind of algorithm did the first one use? Or the one with the concentric circles?

Any help in pointing me to what algorithms were used to generate these visualizations based on the music would help me greatly!

0 投票
1 回答
1895 浏览

aac - 如何分析 AAC 文件或任何库的 BPM 以将 AAC 转换为 MP3

我是 iphone 开发人员,现在正在开发一个 mac 应用程序。这是我在 mac 平台上的第一个项目。

我必须分析歌曲文件的 BPM。我已经使用 FMOD 和 SoundTouch 库为 MP3 完成了这项工作。

但我也必须分析 AAC (M4A),但这个库不支持 AAC 格式。

我试图搜索 AAC(M4A) 的库,但我没有得到任何东西。因此,如果我们可以通过在可可中以编程方式将此 AAC 文件转换为 MP3 文件,那么我们可以分析该文件的 bpm。

我试图在可可中搜索将 AAC 转换为 Mp3 并且我得到了 FAAC 库,但是没有任何文档可以与可可集成,而且它太复杂了。

有谁知道可可项目中用于分析 AAC 的 BPM 的任何其他库。

非常感谢。

0 投票
1 回答
2722 浏览

vector - 语音处理中的向量量化解释

我无法从这篇研究论文中确切地确定如何根据训练数据集重现标准矢量量化算法来确定身份不明的语音输入的语言。以下是一些基本信息:

摘要信息 使用声学特征的语言识别(如日语、英语、德语等)是当前语音技术的一个重要而困难的问题。... 本文使用的语音数据库包含 20 种语言:16 个句子,由 4 名男性和 4 名女性说出两次。每个句子的持续时间约为 8 秒。第一种算法基于标准矢量量化 (VQ) 技术。每种语言都有自己的 VQ 码本,替代文字.

识别算法 第一个算法基于标准矢量量化(VQ)技术。每种语言 ,k都有其自己的 VQ 码本 , 替代文字。在识别阶段,输入语音被量化替代文字并计算累积量化失真 d_k。作为最小失真的语言被识别。计算 VQ 失真,应用了几个 LPC 频谱失真测量......在这种情况下,WLR - 加权最小比率 - 距离:

.

标准 VQ 算法: 码本,替代文字

,对于每种语言都是使用训练句子生成的。句子中输入向量的累积距离![alt text][4] 定义为:[![alt text][5]][5]

该距离d可以是与声学特征相对应的任何距离,并且必须与用于码本生成的距离相同。每种语言都以其 VQ 码本为特征,替代文字.

我的问题是,我到底该怎么做?我有一组50个英语句子。在 MATLAB 中,我可以轻松计算任何给定信号的 WLR。但是,我该如何制定码本,因为我必须使用 WLR 来生成英语的“码本”。我也很好奇如何将大小为 16 的 VQ 码本(被发现是最佳大小)与给定的输入信号进行比较。如果有人可以帮我提炼这篇论文,我将不胜感激。

谢谢!

0 投票
3 回答
20852 浏览

c++ - 如何编写 C++ 音频处理应用程序?

我是一名电子和电信专业的学生,​​即将毕业。我将从事一个涉及我对 DSP、音乐和音频的一般知识的项目。我已经知道所有基本的数学工具以及我需要管理它的所有东西,例如 FFT、循环卷积 ecc ecc。

我想学习 C++ 编程基本上有一个原因:它在专业领域非常重要!!!而且我认为它是最常用于编写处理音频的应用程序之一,尤其是在实时处理方面。

好的,在这个简短的介绍之后,我首先想知道,哪些是 C++ 中最常用的音频处理库?我在网上看的时间更长,但找不到很多工作的东西。(我在 linux 下使用 eclipse CDT 环境工作)。

然后我想知道是否有很好的资源来学习如何编写一些工作代码,例如如何编写一个简单的低通滤波器。基本上现在我不会编写实时应用程序,我想从处理 WAV 文件开始,甚至更好的是 MP3 文件,所以基本上是样本向量。

假设现在基本上我想从音频文件中提取波形,并将其保存为缩略图或 PNG 图像。

好的,现在我想这就是我所需要的。

有什么想法、建议、图书馆、书籍、有趣的资源吗?

非常感谢您提供任何类型的答案。

乔瓦尼。

0 投票
5 回答
36335 浏览

c - 用 C 处理音频 wav 文件

我正在处理 wav 文件的幅度并将其缩放一些小数因子。我正试图围绕如何以内存有效的方式读取和重写文件,同时还试图解决语言的细微差别(我是 C 新手)。该文件可以是 8 位或 16 位格式。我想这样做的方法是首先将标头数据读入一些预定义的结构,然后在循环中处理实际数据,我会将一大块数据读入缓冲区,做任何需要的事情,然后将其写入输出。

最后我得到不同的文件大小(1k 左右,对于 40Mb 文件),我怀疑这是因为我正在将整个缓冲区写入输出,即使文件可能已经终止在填充整个缓冲区大小之前。此外,输出文件搞砸了 - 无法播放或打开 - 所以我可能做错了整个事情。关于我在哪里搞砸的任何提示都会很棒。谢谢!

0 投票
2 回答
255 浏览

video-capture - 用电视采集卡处理电视音频

我正在寻找一个开源库或框架来处理来自电视采集卡的音频信号。这个想法是检测电视广告点并记录它们发生的时间和频道。我从未从事过这样的工作,因此欢迎提供任何信息、链接和想法。

提前致谢!

编辑:我不在乎语言或操作系统。我想澄清一下,我的目标是检测我工作的公司的具体广告。所以,我认为我应该使用我们广告的指纹,并根据捕获的数据检查它们。如果您有这方面的信息,也欢迎。

0 投票
3 回答
5793 浏览

c# - C# 或 C++ 中的音频处理

我想创建一个使用 AI 技术的应用程序,并允许用户录制歌曲的一部分,然后尝试在 wav 文件的数据库中找到该歌曲。

我本来希望将一些现有的库用于音频处理部分。那么,您能否推荐任何可以读取 wav 文件、从麦克风获取输入、具有一些音频过滤器(低通、高通、FFT 等)并且可能还能够绘制音频信号的库。

我更喜欢用 C# 开发,但如果没有好的音频处理库,我想我也可以用 C++ 工作。据我所知,Mathlab 已经具备上述功能,但我无法在我的应用程序中使用它。

0 投票
6 回答
18536 浏览

audio - 声音样本识别库/代码

我不想要声音到文本的软件。我需要的是以下内容:

  • 我会录制多个(比如 50 多个)音频流(广播电台的录音)
  • 从这些录音中,我会标记有趣的音频剪辑——它们的长度范围从 2 到 60 秒——这样的音频剪辑将有几千个
  • 库应该能够从录制的声音流中找到相同音频剪辑的其他实例
  • 应向使用者报告置信因子并提供额外的输入,以便下次识别性能更好

你知道这样的软件库吗?LGPL 对我来说最有价值,但我也可以申请商业许可。

音频剪辑将包含音乐、文本、效果或其任意组合。因此,TEXT 识别是不可能的。

架构:c++、C# 用于胶水、CUDA(如果可能)。

0 投票
1 回答
5898 浏览

ruby - Ruby 的音频处理库?

关于在 Ruby 中进行音频处理的库的任何建议。我需要完成以下两项任务:

  • 找到静默,为此我很高兴能够迭代波中的每个样本。
  • 剪切并粘贴 wav 文件片段以形成新的 wav 文件。
  • 将 wav 转换为 mp3,无论如何我可能会留下来跛脚。

我正在寻找相当于 NAudio 的 C# 库。

0 投票
1 回答
199 浏览

audio - Verizon SongID - 它是如何编程的?

对于不熟悉 Verizon 的 SongID 程序的任何人,它是一个免费的应用程序,可通过 Verizon 的 VCast 网络下载。它会在歌曲的任何时候听一首歌 10 秒钟,然后将此数据发送给一些无所不知的算法野兽,它会咀嚼它并将所有 ID3 标签(艺术家、专辑、歌曲等)发回给你。

前两部分和最后一部分很简单,但是在发送录制的声音之后的处理过程中发生了什么?

我认为它必须获取声音文件(什么格式?),解析它(如何?用什么?)一些关键标识符(这些是什么?波函数的常规属性?相位/位移/幅度/等),并检查它针对数据库。

我在网上找到的所有关于它是如何工作的都是通用的,就像我在上面输入的一样。

来自audiotag.info

该服务基于复杂的音频识别算法,结合了先进的音频指纹技术和大型歌曲数据库。当您上传音频文件时,音频引擎正在对其进行分析。在分析过程中,通过将其与音乐数据库进行比较来提取和识别其音频“指纹”。在此识别过程完成时,屏幕上会显示有关歌曲及其匹配概率的信息。