3

我需要做一些健壮的数据拟合操作。

我有一堆(x,y)数据,我想适合高斯(又名正常)函数。关键是,我想删除 ouliers。正如在下面的示例图中可以看到的那样,还有另一种数据分布污染了我右边的数据,我不想考虑它来进行拟合(即找到 \sigma、\mu 和整体尺度参数)。 样本数据图

R 似乎是适合这项工作的工具,我发现了一些与健壮拟合相关的软件包(例如,健壮的、健壮的基础、质量)。

但是,他们假设用户已经对 R 有很强的了解,这不是我的情况,并且文档仅作为一种参考手册提供,没有教程或同等内容。我的统计背景相当低,我试图阅读有关 R 拟合的参考资料,但它并没有真正帮助(而且我什至不确定那是正确的方法)。但我有一种感觉,这实际上是一个非常简单的操作。

我已经检查了这个相关的问题(以及链接的问题),但是它们将单个值向量作为输入,并且我有一个对向量,所以我看不到如何转置。

任何有关如何做到这一点的帮助将不胜感激。

4

2 回答 2

8

对数据拟合一条高斯曲线,其原理是最小化拟合曲线与数据的平方差之和,因此我们定义f我们的目标函数并optim在其上运行:

fitG =
function(x,y,mu,sig,scale){

  f = function(p){
    d = p[3]*dnorm(x,mean=p[1],sd=p[2])
    sum((d-y)^2)
  }

  optim(c(mu,sig,scale),f)
 }

现在,将其扩展到两个高斯:

fit2G <- function(x,y,mu1,sig1,scale1,mu2,sig2,scale2,...){

  f = function(p){
    d = p[3]*dnorm(x,mean=p[1],sd=p[2]) + p[6]*dnorm(x,mean=p[4],sd=p[5])
    sum((d-y)^2)
  }
  optim(c(mu1,sig1,scale1,mu2,sig2,scale2),f,...)
}

拟合第一次拟合的初始参数,以及对第二个峰值的直观猜测。需要增加最大迭代次数:

> fit2P = fit2G(data$V3,data$V6,6,.6,.02,8.3,0.10,.002,control=list(maxit=10000))
Warning messages:
1: In dnorm(x, mean = p[1], sd = p[2]) : NaNs produced
2: In dnorm(x, mean = p[4], sd = p[5]) : NaNs produced
3: In dnorm(x, mean = p[4], sd = p[5]) : NaNs produced
> fit2P
$par
[1] 6.035610393 0.653149616 0.023744876 8.317215066 0.107767881 0.002055287

这一切看起来像什么?

> plot(data$V3,data$V6)
> p = fit2P$par
> lines(data$V3,p[3]*dnorm(data$V3,p[1],p[2]))
> lines(data$V3,p[6]*dnorm(data$V3,p[4],p[5]),col=2)

在此处输入图像描述

但是我会警惕关于你的函数参数的统计推断......

产生的警告消息可能是由于 sd 参数变为负数。您可以通过使用 L-BFGS-B 并设置下限来解决此问题并获得更快的收敛:

> fit2P = fit2G(data$V3,data$V6,6,.6,.02,8.3,0.10,.002,control=list(maxit=10000),method="L-BFGS-B",lower=c(0,0,0,0,0,0))
> fit2P
$par
[1] 6.03564202 0.65302676 0.02374196 8.31424025 0.11117534 0.00208724

正如所指出的,对初始值的敏感性始终是这样的曲线拟合问题。

于 2013-04-08T16:02:06.110 回答
4

拟合高斯:

# your data
set.seed(0)
data <- c(rnorm(100,0,1), 10, 11) 

# find & remove outliers
outliers <- boxplot(data)$out
data <- setdiff(data, outliers)

# fitting a Gaussian
mu <- mean(data)
sigma <- sd(data)

# testing the fit, check the p-value
reference.data <- rnorm(length(data), mu, sigma)
ks.test(reference.data, data) 
于 2013-04-08T15:37:02.090 回答