audio - 44100 的采样率究竟是什么？

Question

我正在使用 FMOD 库从 MP3 中提取 PCM。我得到了整个 2 通道 - 16 位的东西，而且我还得到 44100hz 的采样率是 1 秒内 44,100 个“声音”样本。我不明白的是，16 位值究竟代表什么。我知道如何在 xy 轴上绘制坐标，但我在绘制什么？y轴代表时间，x轴代表什么？声级？和振幅一样吗？如何确定构成此值的不同声音。我的意思是，我如何从 16 位数字中获得频谱。

这可能是一个单独的问题，但它实际上是我真正需要回答的问题：如何获得每 25 毫秒的幅度？我是否取 44,100 个值除以 40 (40 * 0.025 秒 = 1 秒)？这给出了 1102.5 个样本；那么我是否会将 1102 个值输入到一个黑盒中，以便及时为我提供那个时刻的幅度？

编辑原始帖子以添加我计划很快测试的代码：（注意，我将帧速率从 25 毫秒更改为 40 毫秒）

// 44100 / 25 frames = 1764 samples per frame -> 1764 * 2 channels * 2 bytes [16 bit sample] = 7056 bytes
private const int CHUNKSIZE = 7056;
uint    bytesread = 0;
var squares = new double[CHUNKSIZE / 4];
const double scale = 1.0d / 32768.0d;

do
{
    result = sound.readData(data, CHUNKSIZE, ref read);

    Marshal.Copy(data, buffer, 0, CHUNKSIZE);

    //PCM samples are 16 bit little endian
    Array.Reverse(buffer);

    for (var i = 0; i < buffer.Length; i += 4)
    {
        var avg = scale * (Math.Abs((double)BitConverter.ToInt16(buffer, i)) + Math.Abs((double)BitConverter.ToInt16(buffer, i + 2))) / 2.0d;
        squares[i >> 2] = avg * avg;
    }

    var rmsAmplitude = ((int)(Math.Floor(Math.Sqrt(squares.Average()) * 32768.0d))).ToString("X2");

    fs.Write(buffer, 0, (int) read);

    bytesread += read;

    statusBar.Text = "writing " + bytesread + " bytes of " + length + " to output.raw";
} while (result == FMOD.RESULT.OK && read == CHUNKSIZE);

加载 mp3 后，我的 rmsAmplitude 似乎在 3C00 到 4900 的范围内。我做错了吗？我期待更广泛的传播。

score 2 · Accepted Answer

是的，样本代表幅度（在那个时间点）。

要获得频谱，您通常会将其从时域转换为频域。

最后一个问题：使用了多种方法 - 您可能需要RMS。

score 0 · Accepted Answer

通常，x 轴是时间值，y 轴是幅度。要获得频率，您需要对数据进行傅里叶变换（很可能使用快速傅里叶变换 [fft] 算法）。

要使用最简单的“声音”之一，我们假设您有一个频率为 f 的单频噪声。这表示（在幅度/时域中）为 y = sin(2 * pi * x / f)。如果将其转换为频域，则最终会得到频率 = f。

score 0 · Accepted Answer

0

每个样本代表给定时间模拟信号的电压。

于 2016-03-17T12:10:49.470 回答

audio - 44100 的采样率究竟是什么？

3 回答 3

Related

Reference