我正在尝试最大化对数似然函数以获取条件 logit 模型的系数。我有一个包含大约 9M 行(300k 选择集)和大约 40 个要估计的参数的大数据框。它看起来像这样:
ChoiceSet Choice SKU Price Caramel etc.
1 1 1234 1.0 1 ...
1 0 145 2.0 1 ...
1 0 5233 2.0 0 ...
2 0 1432 1.5 1 ...
2 0 5233 2.0 0 ...
2 1 8320 2.0 0 ...
3 0 1234 1.5 1 ...
3 1 145 1.0 1 ...
3 0 8320 1.0 0 ...
其中 ChoiceSet 是购买时商店中可用的一组产品,选择 SKU 时 Choice=1。
由于 ChoiceSets 可能会有所不同,我使用对数似然函数:
clogit.ll <- function(beta,X) { #### This is a function to be maximized
X <- as.data.table(X)
setkey(X,ChoiceSet,Choice)
sum((as.matrix(X[J(t(as.vector(unique(X[,1,with=F]))),1),3:ncol(X),with=F]))%*%beta)-
sum(foreach(chset=unique(X[,list(ChoiceSet)])$ChoiceSet, .combine='c', .packages='data.table') %dopar% {
Z <- as.matrix(X[J(chset,0:1),3:ncol(X), with=F])
Zb <- Z%*%beta
e <- exp(Zb)
log(sum(e))
})
}
创建没有 SKU(不需要)和零向量的新数据框:
X0 <- Data[,-3]
b0 <- rep(0,ncol(X0)-2)
我在 maxLike 包的帮助下最大化了这个函数,在这个包中我使用梯度来加快计算速度:
grad.clogit.ll <- function(beta,X) { ###It is a gradient of likelihood function
X <- as.data.table(X)
setkey(X,ChoiceSet,Choice)
colSums(foreach(chset=unique(X[,list(ChoiceSet)])$ChoiceSet, .combine='rbind',.packages='data.table') %dopar% {
Z <- as.matrix(X[J(chset,0:1),3:ncol(X), with=F])
Zb <- Z%*%beta
e <- exp(Zb)
as.vector(X[J(chset,1),3:ncol(X),with=F]-t(as.vector(X[J(chset,0:1),3:ncol(X),with=F]))%*%(e/sum(e)))
})
}
最大化问题如下:
fit <- maxLik(logLik = clogit.ll, grad = grad.clogit.ll, start=b0, X=X0, method="NR", tol=10^(-6), iterlim=100)
一般来说,它适用于小样本,但对于大样本来说太长了:
Number of Choice sets Duration of computation
300 4.5min
400 10.5min
1000 25min
但是当我为 5000+ 选择集 R 终止会话时。
那么(如果您仍在阅读它)如果我有 300,000 多个选择集和 1.5 周的时间来完成我的课程作业,我该如何最大化此功能?请帮忙,我没有任何想法。