35

我想将声音的音高绘制成图表。

目前我可以绘制幅度。下图是由返回的数据创建的getUnscaledAmplitude()

替代文字

AudioInputStream audioInputStream = AudioSystem.getAudioInputStream(new BufferedInputStream(new FileInputStream(file)));
byte[] bytes = new byte[(int) (audioInputStream.getFrameLength()) * (audioInputStream.getFormat().getFrameSize())];
audioInputStream.read(bytes);

// Get amplitude values for each audio channel in an array.
graphData = type.getUnscaledAmplitude(bytes, 1);


public int[][] getUnscaledAmplitude(byte[] eightBitByteArray, int nbChannels)
{
    int[][] toReturn = new int[nbChannels][eightBitByteArray.length / (2 * nbChannels)];
    int index = 0;

    for (int audioByte = 0; audioByte < eightBitByteArray.length;)
    {
        for (int channel = 0; channel < nbChannels; channel++)
        {
            // Do the byte to sample conversion.
            int low = (int) eightBitByteArray[audioByte];
            audioByte++;
            int high = (int) eightBitByteArray[audioByte];
            audioByte++;
            int sample = (high << 8) + (low & 0x00ff);

            toReturn[channel][index] = sample;
        }
        index++;
    }

    return toReturn;
}

但我需要显示音频的音高,而不是幅度。快速傅里叶变换似乎可以得到音调,但它需要知道比我拥有的原始字节更多的变量,并且非常复杂和数学。

有没有办法我可以做到这一点?

4

3 回答 3

50

频率(客观指标)与音高(主观量)不同。一般来说,音高检测是一个非常棘手的问题。

假设您现在只想绘制频率响应,您别无选择,只能使用 FFT,因为它是获得时域数据频率响应的方法(嗯,还有其他方法,例如离散余弦变换,但它们实现起来同样棘手,解释起来也更棘手)。

如果您正在为 FFT 的实现而苦苦挣扎,请注意它实际上只是一种计算离散傅里叶变换 (DFT) 的有效算法;见http://en.wikipedia.org/wiki/Discrete_Fourier_transform。基本的 DFT 算法要​​容易得多(只有两个嵌套循环),但运行速度慢得多(O(N^2) 而不是 O(N log N))。

如果您想做比简单地绘制频率内容更复杂的事情(例如音高检测或窗口化(如其他人建议的那样)),恐怕您将了解数学的含义。

于 2011-01-16T23:12:45.700 回答
24

快速傅立叶变换不需要知道比您拥有的输入字节更多的信息。不要被维基百科的文章吓到。FFT 算法将获取您的输入信号(使用常见的 FFT 算法,样本数需要为 2 的幂,例如 256、512、1024)并返回具有相同大小的复数向量。因为您的输入是真实的,而不是复杂的,(虚部设置为零)返回的向量将是对称的。只有一半将包含数据。由于您不关心相位,因此您可以简单地取复数的大小,即 sqrt(a^2+b^2)。仅取复数的绝对值也可能有效,在某些语言中,这等效于前面的表达式。

有可用的 FFT 的 Java 实现,例如:http ://www.cs.princeton.edu/introcs/97data/FFT.java.html

伪代码看起来像:

Complex in[1024];
Complex out[1024];
Copy your signal into in
FFT(in, out)
for every member of out compute sqrt(a^2+b^2)
To find frequency with highest power scan for the maximum value in the first 512 points in out

输出将包含采样频率在零到一半之间的整数。

由于 FFT 假定一个重复信号,您可能希望对输入信号应用一个窗口。但一开始不要担心这个。

您可以在网上找到更多信息,例如:FFT 初学者

此外,正如 Oli 所指出的,当存在多个频率时,感知到的音高是一种更复杂的现象

于 2011-01-16T23:03:59.937 回答
2

关于这个问题,stackoverflow上还有其他几个 问题。也许这些会有所帮助。

相反,您可以尝试查找Craig Lindley的 Java 数字音频副本。我认为它不再印刷了,但我桌上的副本有一个关于 FFT 的部分,还有一个吉他调音器的示例应用程序。

于 2011-01-16T23:14:18.113 回答