10

背景

我的目标是创建一个基于 JavaScript 的 Web 应用程序来分析和显示音频源中的频率信息,包括页面内源(<audio>标签)和来自客户端麦克风的信号。我一切顺利:)

作为一名敏锐的萨克斯手,我的目标之一是通过检查高分音相对于基本音高的分布来比较不同萨克斯手和乐器音色中固有的信息。简而言之,我想解释为什么不同的乐器演奏家和乐器品牌即使在演奏相同的音高时听起来也不同。此外,我想将各种“替代指法”的调音和频率分布与同一演奏者/乐器的传统或标准指法进行比较。

使用 JS 访问和显示频率信息是一件相当简单的事情AudioContext.analyserNode,我将它与HTML5 Canvas元素结合使用来创建频率图或“winamp 样式条形图”,类似于在MDN 中找到的“使用 Web 音频 API 的可视化”

问题

为了实现我的目标,我需要识别音频源中的一些特定信息,特别是基音的赫兹频率,以便在乐器演奏者/乐器之间进行直接比较,以及源的频率范围,以确定频谱我感兴趣的声音。这些信息可以在下面的变量fData中找到......

// example...
var APP = function() {
    // ...select source and initialise etc..

    var aCTX = new AudioContext(),
        ANAL = aCTX.createAnalyser(),
        rANF = requestAnimationFrame,
        ucID = null;

    ANAL.fftSize = 2048;

    function audioSourceStream(stream) {

        var source = aCTX.createMediaStreamSource(stream);
        source.connect(ANAL);

        var fData = new Uint8Array(ANAL.frequencyBinCount);

        (function updateCanvas() {
            ANAL.getByteFrequencyData(fData);

            // using 'fData' to paint HTML5 Canvas

            ucID = rANF(updateCanvas);
        }());
    }
};

问题

虽然我可以fData通过 API 轻松地将其表示为条形图或折线图等<canvas>,以使声源的基本部分和上部部分清晰可见,但到目前为止我还无法确定......

  • fData(min-max Hz)的频率范围
  • 每个值的频率fData(Hz)

如果没有这个,我就无法开始识别源的主要频率(以便将调音的变化与传统音乐音高名称进行比较)和/或突出或排除所代表频谱的区域(放大或缩小等)以进行更详细的检查。

我的目的是通过音高(音符名称)和频率(Hz)突出显示主要频率,并在鼠标悬停时在图表中显示任何单个条的频率。注意我已经有一个数据对象,其中存储了 C 0 -B 8之间的所有音高频率 (Hz) 。

尽管多次阅读了AudioContext.analysisrNode 规范,并且几乎阅读了这个站点和 MDN 上关于这个主题的每一页,但我仍然对如何完成这部分任务没有确定的想法。

基本上,如何将Uint8Array() fData中的值转换为以赫兹为单位的每个频率幅度的表示,这些频率由fData数组元素反映。

任何意见、建议或鼓励将不胜感激。

英国石油公司

4

1 回答 1

29

因此,首先,要了解 FFT 的输出将为您提供一系列频率范围内的相对强度,而不是精确的频率。

这些范围分布在频谱 [0,奈奎斯特频率] 中。奈奎斯特频率是采样率的二分之一。因此,如果您的 AudioContext.sampleRate 为 48000(赫兹),则您的频率区间将跨越 [0,24000](也以赫兹为单位)。

如果您在 AnalyserNode 中为 fftSize 使用默认值 2048,则 frequencyBinCount 将为 1024(它始终是 FFT 大小的一半)。这意味着每个频率分档将代表 (24000/1024 = 23.4) 大约 23.4Hz 的范围 - 所以分档看起来像这样(即插即用,此处可能出现舍入误差):

fData[0] is the strength of frequencies from 0 to 23.4Hz.
fData[1] is the strength of frequencies from 23.4Hz to 46.8Hz.
fData[2] is the strength of frequencies from 46.8Hz to 70.2Hz.
fData[3] is the strength of frequencies from 70.2Hz to 93.6Hz.
...
fData[511] is the strength of frequencies from 11976.6Hz to 12000Hz.
fData[512] is the strength of frequencies from 12000Hz to 12023.4Hz.
...
fData[1023] is the strength of frequencies from 23976.6Hz to 24000Hz.

到目前为止有意义吗?

通常出现的下一条评论是“等一下——从音乐上讲,这在低音音域(23.4 Hz 可以覆盖整个 OCTAVE)中不如高音音域(音符之间有数百赫兹)精确。 " 对此我说:是的,是的。这就是 FFT 的工作原理。在较高的寄存器中,更容易看到调谐差异。

下一条评论通常是“哇,我需要一个 MASSIVE fftSize 才能在低音寄存器中精确。” 通常,答案是“不,你可能不应该那样做”——在某些时候,自相关比 FFT 更有效,而且更精确。

希望这有助于为您指明正确的方向,如果有后续,请添加评论。

于 2017-06-12T17:03:40.870 回答