audio - 通过自动相关的音高检测在更高的音高上失败

Question

我正在尝试使用自相关从录制的语音（44.1 kHz）中获取音高等级。我在做什么基本上在这里描述：http://cnx.org/content/m11714/latest/也在这里实现：http ://code.google.com/p/yaalp/source/browse/trunk/csaudio /WaveAudio/WaveAudio/PitchDetection.cs（使用PitchDetectAlgorithm.Amdf的部分）

因此，为了检测音级，我建立了一个具有 C2 到 B3 频率（2 个八度音阶）的归一化相关性的数组，并选择具有最高值的数组（首先进行“1 - 相关性”转换，因此不搜索最小但最大）

我用生成的音频（简单的窦）测试了它：

data[i] = (short)(Math.Sin(2 * Math.PI * i/fs * freq) * short.MaxValue);

但它只适用于低于 B4 的输入频率。研究生成的数组，我发现从 G3 开始，另一个 peek 进化了，最终变得比正确的更大。并且我的 B4 被检测为 E。更改分析频率的数量根本没有帮助。

我的缓冲区大小为 4000 个样本，B4 的频率约为 493Hz，所以我想不出失败的原因。频率或缓冲区大小是否有更多限制？那里出了什么问题？

我知道我可以像 Performous 一样使用 FFT，但是使用这种方法看起来很简单，并且还提供了可用于显示可视化的加权频率。我不想那么轻易地把它扔掉，至少明白为什么会失败。

更新：使用的核心功能：

private double _GetAmdf(int tone)
    {
        int samplesPerPeriod = _SamplesPerPeriodPerTone[tone]; // samples in one period
        int accumDist = 0; // accumulated distances
        int sampleIndex = 0; // index of sample to analyze
        // Start value= index of sample one period ahead
        for (int correlatingSampleIndex = sampleIndex + samplesPerPeriod; correlatingSampleIndex < _AnalysisBufLen; correlatingSampleIndex++, sampleIndex++)
        {
            // calc distance (correlation: 1-dist/IntMax*2) to corresponding sample in next period (0=equal .. IntMax*2=totally different)
            int dist = Math.Abs(_AnalysisBuffer[sampleIndex] - _AnalysisBuffer[correlatingSampleIndex]);
            accumDist += dist;
        }

        return 1.0 - (double)accumDist / Int16.MaxValue / sampleIndex;
    }

使用该功能，音高/音调是（伪代码）

tone = Max(_GetAmdf(tone)) <- for tone = C2..

我还尝试使用实际的自相关：

double accumDist=0;
//...
double dist = _AnalysisBuffer[sampleIndex] * _AnalysisBuffer[correlatingSampleIndex];
//...
const double scaleValue = (double)Int16.MaxValue * (double)Int16.MaxValue;
return accumDist / (scaleValue * sampleIndex);

但是除了 B4 作为 E 之外，还没有获得 A3 作为 D

注意：我不是除以 Bufferlength 而是除以实际比较的样本数。不确定这是否正确，但这似乎是逻辑。

score 2 · Accepted Answer

这是使用自相关和类似的音高滞后估计（AMDF、ASDF 等）的常见八度问题。

低一个八度（或任何其他整数倍）的频率也会在偏移波形相似性方面提供同样好的匹配（例如，偏移 2pi 的正弦波看起来与偏移 4pi 的正弦波相同，这表示低八度。取决于噪声以及连续峰值与采样峰值的接近程度，一个或另一个估计峰值可能略高，而音高没有变化。

因此，需要使用其他一些测试来去除波形相关或滞后匹配中的较低倍频程（或其他约数频率）峰值（例如，一个峰值看起来是否足够接近一个或多个其他峰值、一个或多个倍频程或其他频率倍增， ETC。）

score 1 · Accepted Answer

我不知道 c#，但如果您提供的少量代码是正确的，并且像大多数其他类似 c 的语言一样，它会引入大量所谓的模块间失真。

在大多数类 c 语言（以及我知道的大多数其他语言，如 java）中，类似 Math.sin() 的输出将在 [-1,1] 范围内。在转换为 int、short 或 long 时，这将更改为 [-1,0]。从本质上讲，您会将正弦波更改为具有许多泛音的非常失真的方波，这可能是这些库正在拾取的。

试试这个：

data[i] = (short)(32,767 * Math.Sin(2 * Math.PI * i/fs * freq));

score 0 · Accepted Answer

除了@Bjorn 和@Hotpaw 所说的一切，过去我发现了@hotpaw2 描述的问题。

从您的代码中不清楚您是否正在计算一个样本的差异（正如我在计算 AMDF 的方程中所见）！

我是用java做的，你可以在Tarsos找到完整的源代码！

这是您在java中发布的等效步骤：

    int maxShift = audioBuffer.length;


    for (int i = 0; i < maxShift; i++) {
        frames1 = new double[maxShift - i + 1];
        frames2 = new double[maxShift - i + 1];
        t = 0;
        for (int aux1 = 0; aux1 < maxShift - i; aux1++) {
            t = t + 1;
            frames1[t] = audioBuffer[aux1];

        }
        t = 0;
        for (int aux2 = i; aux2 < maxShift; aux2++) {
            t = t + 1;
            frames2[t] = audioBuffer[aux2];
        }

        int frameLength = frames1.length;
        calcSub = new double[frameLength];
        for (int u = 0; u < frameLength; u++) {
            calcSub[u] = frames1[u] - frames2[u];
        }

        double summation = 0;
        for (int l = 0; l < frameLength; l++) {
            summation +=  Math.abs(calcSub[l]);
        }
        amd[i] = summation;
    }

audio - 通过自动相关的音高检测在更高的音高上失败

3 回答 3

Related

Reference