2

我有几十万个测量值,其中因变量是概率,并且想使用逻辑回归。但是,我拥有的协变量都是分类的,更糟糕​​的是,都是嵌套的。我的意思是,如果某个测量有“城市 - 凤凰城”,那么显然肯定有“州 - 亚利桑那州”和“国家 - 美国”我有四个这样的因素 - 最细粒度的有大约 20k 水平,但如果需要我想我可以没有那个。我还有一些非嵌套的分类协变量(只有四个左右,每个可能有三个不同的级别)。我最感兴趣的是预测——给定某个城市的新观察结果,我想知道相关的概率/因变量。我对相关的推理机制 - 标准偏差不太感兴趣,等 - 至少到目前为止。我希望我能负担得起马虎。但是,我希望获得这些信息,除非它需要计算成本更高的方法。有人对如何攻击这个有任何建议吗?我研究过混合效果,但不确定它是否是我想要的。

4

2 回答 2

2

我认为这更多的是模型设计问题,而不是专门针对 R 的问题;因此,我想先解决问题的上下文,然后是适当的 R 包。

如果您的因变量是概率,例如 $y\in[0,1]$,则逻辑回归不适合数据——特别是考虑到您对预测样本外的概率感兴趣。逻辑将模拟自变量对因变量从零翻转到一的概率的贡献,并且由于您的变量是连续的且被截断的,因此您需要不同的规范。

我认为您对混合效果的后一种直觉是好的。由于您的观察是嵌套的,即US <-> AZ <-> Phoenix多级模型,或者在这种情况下是分层线性模型,可能是您数据的最佳规范。此类建模的最佳 R 包是multilevelnlme,这里有对R 和 nlme 中的多级模型的出色介绍。您可能对从第 26 页开始讨论的多级建模的数据操作特别感兴趣。

于 2010-04-17T23:15:46.100 回答
0

我建议研究像弹性网这样的惩罚回归。弹性网络用于文本挖掘,其中每一列代表一个单词的存在或不存在,并且可能有数十万个变量,与您的问题类似。从 R 开始的一个好地方是glmnet包及其随附的 JSS 论文: http: //www.jstatsoft.org/v33/i01/

于 2010-04-18T14:00:20.390 回答