我有一个包含一个自变量和一组因变量的数据集。我想使用自举非线性最小二乘法为每组自变量拟合一个函数。在某些情况下,自变量是“质量好的”,即相当好地拟合函数。在其他情况下,它们很吵。
在所有情况下,我都可以nls()
用来估计参数。但是,当数据嘈杂时,引导程序会抛出错误Error in nls(...) : singular gradient
。我可以理解为什么nls
拟合嘈杂的数据会失败,例如在太多迭代后无法收敛,但我不明白为什么它是一个奇异的梯度错误,以及为什么我只得到质量差的重新采样数据集。
代码:
require(ggplot2)
require(plyr)
require(boot)
# Data are in long form: columns are 'enzyme', 'x', and 'y'
enz <- read.table("http://dl.dropbox.com/s/ts3ruh91kpr47sj/SE.txt", header=TRUE)
# Nonlinear formula to fit to data
mmFormula <- formula(y ~ (x*Vmax) / (x + Km))
nls
完全能够拟合数据(即使在某些情况下,例如a
,我怀疑模型是否适合数据。
# Use nls to fit mmFormula to the data - this works well enough
fitDf <- ddply(enz, .(enzyme), function(x) coefficients(nls(mmFormula, x, start=list(Km=100, Vmax=0.5))))
# Create points to plot for the simulated fits
xGrid <- 0:200
simFits <- dlply(fitDf, .(enzyme), function(x) data.frame(x=xGrid, y=(xGrid * x$Vmax)/(xGrid + x$Km)))
simFits <- ldply(simFits, identity)
ggplot() + geom_point(data=enz, aes(x=x, y=y)) + geom_line(data=simFits, aes(x=x, y=y)) +
facet_wrap(~enzyme, scales="free_y") + aes(ymin=0)
自举适用于高质量数据:
# Function to pass to bootstrap; returns coefficients of nls fit to formula
nlsCoef <- function(df, i) {
KmGuess <- median(df$x)
VmaxGuess <- max(df$y)
dfSamp <- df[i,]
nlsCoef <- coefficients(nls(mmFormula, dfSamp, start=list(Km=100, Vmax=0.5)))
}
eBoot <- boot(subset(enz, enzyme=="e"), nlsCoef, R=1000) #No error
但不适用于质量差的数据
dBoot <- boot(subset(enz, enzyme=="d"), nlsCoef, R=10)
> Error in nls(mmFormula, dfSamp, start = list(Km = KmGuess, Vmax = VmaxGuess)) :
singular gradient
是什么导致了这个错误?鉴于我想plyr
同时执行大量引导模拟,我应该怎么做?