35

我想对下面显示的信号执行自相关。两个连续点之间的时间为 2.5ms(或重复率为 400Hz)。

在此处输入图像描述

这是我想使用的估计自相关的等式(取自http://en.wikipedia.org/wiki/Autocorrelation,估计部分):

在此处输入图像描述

在 python 中查找我的数据的估计自相关的最简单方法是什么?有没有类似于numpy.correlate我可以使用的东西?

还是我应该只计算均值和方差?


编辑:

unutbu的帮助下,我写了:

from numpy import *
import numpy as N
import pylab as P

fn = 'data.txt'
x = loadtxt(fn,unpack=True,usecols=[1])
time = loadtxt(fn,unpack=True,usecols=[0]) 

def estimated_autocorrelation(x):
    n = len(x)
    variance = x.var()
    x = x-x.mean()
    r = N.correlate(x, x, mode = 'full')[-n:]
    #assert N.allclose(r, N.array([(x[:n-k]*x[-(n-k):]).sum() for k in range(n)]))
    result = r/(variance*(N.arange(n, 0, -1)))
    return result

P.plot(time,estimated_autocorrelation(x))
P.xlabel('time (s)')
P.ylabel('autocorrelation')
P.show()
4

5 回答 5

34

我认为这个特定的计算没有 NumPy 函数。这是我的写法:

def estimated_autocorrelation(x):
    """
    http://stackoverflow.com/q/14297012/190597
    http://en.wikipedia.org/wiki/Autocorrelation#Estimation
    """
    n = len(x)
    variance = x.var()
    x = x-x.mean()
    r = np.correlate(x, x, mode = 'full')[-n:]
    assert np.allclose(r, np.array([(x[:n-k]*x[-(n-k):]).sum() for k in range(n)]))
    result = r/(variance*(np.arange(n, 0, -1)))
    return result

断言语句用于检查计算并记录其意图。

当您确信此函数按预期运行时,您可以注释掉该assert语句,或使用python -O. (该-O标志告诉 Python 忽略断言语句。)

于 2013-01-12T22:33:20.617 回答
17

我从 pandas autocorrelation_plot() 函数中获取了一部分代码。我用 R 检查了答案,并且值完全匹配。

import numpy
def acf(series):
    n = len(series)
    data = numpy.asarray(series)
    mean = numpy.mean(data)
    c0 = numpy.sum((data - mean) ** 2) / float(n)

    def r(h):
        acf_lag = ((data[:n - h] - mean) * (data[h:] - mean)).sum() / float(n) / c0
        return round(acf_lag, 3)
    x = numpy.arange(n) # Avoiding lag 0 calculation
    acf_coeffs = map(r, x)
    return acf_coeffs
于 2013-12-09T04:58:33.517 回答
12

statsmodels 包添加了一个内部使用的自相关函数np.correlate(根据statsmodels文档)。

见: http ://statsmodels.sourceforge.net/stable/generated/statsmodels.tsa.stattools.acf.html#statsmodels.tsa.stattools.acf

于 2013-05-01T18:28:32.547 回答
8

我在最近一次编辑时编写的方法现在比scipy.statstools.acffft=True样本量变得非常大之前更快。

错误分析如果您想调整偏差并获得高度准确的错误估计:请查看我的代码它实现了 Ulli Wolff 的这篇论文或 UW 的原创Matlab

测试功能

  • a = correlatedData(n=10000)来自此处找到的例程
  • gamma()来自同一个地方correlated_data()
  • acorr()下面是我的功能
  • estimated_autocorrelation在另一个答案中找到
  • acf()来自from statsmodels.tsa.stattools import acf

计时

%timeit a0, junk, junk = gamma(a, f=0)                            # puwr.py
%timeit a1 = [acorr(a, m, i) for i in range(l)]                   # my own
%timeit a2 = acf(a)                                               # statstools
%timeit a3 = estimated_autocorrelation(a)                         # numpy
%timeit a4 = acf(a, fft=True)                                     # stats FFT

## -- End pasted text --
100 loops, best of 3: 7.18 ms per loop
100 loops, best of 3: 2.15 ms per loop
10 loops, best of 3: 88.3 ms per loop
10 loops, best of 3: 87.6 ms per loop
100 loops, best of 3: 3.33 ms per loop

编辑...我再次检查了保持l=40和更改n=10000样本n=200000FFT 方法开始获得一些牵引力,而statsmodelsfft 实现只是边缘它...(顺序相同)

## -- End pasted text --
10 loops, best of 3: 86.2 ms per loop
10 loops, best of 3: 69.5 ms per loop
1 loops, best of 3: 16.2 s per loop
1 loops, best of 3: 16.3 s per loop
10 loops, best of 3: 52.3 ms per loop

编辑 2:我改变了我的例程并重新测试了 FFTn=10000n=20000

a = correlatedData(n=200000); b=correlatedData(n=10000)
m = a.mean(); rng = np.arange(40); mb = b.mean()
%timeit a1 = map(lambda t:acorr(a, m, t), rng)
%timeit a1 = map(lambda t:acorr.acorr(b, mb, t), rng)
%timeit a4 = acf(a, fft=True)
%timeit a4 = acf(b, fft=True)

10 loops, best of 3: 73.3 ms per loop   # acorr below
100 loops, best of 3: 2.37 ms per loop  # acorr below
10 loops, best of 3: 79.2 ms per loop   # statstools with FFT
100 loops, best of 3: 2.69 ms per loop # statstools with FFT

执行

def acorr(op_samples, mean, separation, norm = 1):
    """autocorrelation of a measured operator with optional normalisation
    the autocorrelation is measured over the 0th axis

    Required Inputs
        op_samples  :: np.ndarray :: the operator samples
        mean        :: float :: the mean of the operator
        separation  :: int :: the separation between HMC steps
        norm        :: float :: the autocorrelation with separation=0
    """
    return ((op_samples[:op_samples.size-separation] - mean)*(op_samples[separation:]- mean)).ravel().mean() / norm

4x加速可以在下面实现。您必须小心只通过,op_samples=a.copy()否则它将修改数组:aa-=mean

op_samples -= mean
return (op_samples[:op_samples.size-separation]*op_samples[separation:]).ravel().mean() / norm

完整性检查

在此处输入图像描述

示例错误分析

这有点超出范围,但如果没有集成自相关时间或集成窗口计算,我不会费心重做这个数字。与错误的自相关在底部图中很清楚 在此处输入图像描述

于 2016-07-17T02:00:28.303 回答
2

我发现这得到了预期的结果,只需稍作改动:

def estimated_autocorrelation(x):
    n = len(x)
    variance = x.var()
    x = x-x.mean()
    r = N.correlate(x, x, mode = 'full')
    result = r/(variance*n)
    return result

针对 Excel 的自相关结果进行测试。

于 2017-12-17T23:46:26.423 回答