问题标签 [model-comparison]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 AIC 的 Python 逐步回归?
以 AIC 为标准的逐步回归的 R step() 函数的 Python 等效项是什么?
statsmodels.api 中是否存在现有函数?
machine-learning - 为什么在模型选择之前不进行模型调整?
我在许多文章和书籍中观察到,模型选择是在模型调整之前完成的。
模型选择通常使用某种形式的交叉验证来完成,例如 k-fold,其中计算多个模型的指标并选择最佳的一个。
然后调整所选模型以获得最佳超参数。
但我的问题是,未选择的模型在正确的超参数下可能会表现得更好。
那么为什么不是我们感兴趣的所有模型都被调整以获得正确的超参数,然后通过交叉验证选择最佳模型。
r - 使用 glmulti 进行模型选择
我正在尝试运行 glmulti 来测试所有可能的模型选择子集。以下是我尝试使用的代码。
变量组合出现问题。在我的输出中,第 4 和第 5 个模型是相同的(见下文),并且在“Pier”和“(1|Transmitter)”之间有一个空白。
如果有人可以提供帮助,将不胜感激。
r - R结构中断点时间序列模型的模型比较
我想测试时间序列是否包含结构变化。
使用这个模拟示例创建一个系列,在 30 和 80 次观察后有两次休息。
我使用strucchange R 包来确定断点的数量(如果有的话)并对这些进行建模:
...并将具有 2 个结构变化点的拟合模型放在原始时间序列之上:
我感兴趣的是:如何测试具有结构变化的模型是否比简单的线性模型更适合?
模型比较只是:anova(simple_lm, break_model)
?
我不需要先对平稳性进行初始测试吗?或者这是否包含在模型比较中?
r - MuMIn::dredge()。仅排除包含主效应的模型,仅保留具有交互作用的模型
是否可以为子集化(排除)所有仅包括例如 A 的主要影响的潜在模型做出一般逻辑陈述?
y ~ A + B + C + A:C + A:B
对于包括 A 的模型,只包括那些 A 是交互的一部分的模型(因为关系 y~A 本身没有意义)。
r - 在使用插入符号训练多个模型时使用相同的 trainControl 对象进行交叉验证是否可以进行准确的模型比较?
我最近一直在研究 R 包caret
,并且有一个关于训练期间模型的可重复性和比较的问题,我还不能完全确定。
我的意图是,每个train
调用以及每个生成的模型都使用相同的交叉验证拆分,以便交叉验证的初始存储结果与构建期间计算的模型的样本外估计具有可比性。
我见过的一种方法是您可以在每次train
调用之前指定种子,如下所示:
但是,trainControl
在调用之间共享一个对象是否train
意味着它们通常使用相同的重采样和索引,或者我是否必须将seeds
参数显式传递给函数。列车控制对象在使用时是否具有随机功能或是否在声明时设置?
我目前的方法是:
这些火车呼叫是否将使用相同的拆分并具有可比性,还是我必须采取进一步措施来确保这一点?即在trainControl
制作对象时指定种子,或在每列火车前调用set.seed
?或两者?
希望这是有道理的,而不是完全的垃圾。任何帮助
我正在查询的代码项目可以在这里找到。它可能更容易阅读,你会明白的。
r - model select=TRUE时如何查看所有gam模型的性能
我运行一个带有变量选择的游戏。但我想评估所有变量组合的输出,而不仅仅是为了比较的最佳模型。我在 R 中使用 mgcv 包,是否有一些用于模型评估的命令(在我开始编写许多循环之前......)。
例子:
如果我使用 summary(b),我只能看到最佳模型的结果。
regression - 与 RMSE 的模型比较
我是数据科学的新手,想寻求模型选择的帮助。
我已经建立了 8 个模型来预测 Salary vs year exp、职位名称和位置。然后,我尝试通过 RMSE 比较 8 个模型。但最后,我不确定我应该选择哪种型号。(记住,我更喜欢模型 8,因为经过随机森林测试,结果优于回归,然后我使用所有数据集制作最终版本,但解释 coef 比回归更难)你能帮忙哪个模型你更喜欢,为什么?在现实中,数据科学家是这样做的,还是他们有自动处理的方法?
1 RMSElm1:模型:线性回归,数据:训练 80%,测试 20% 无任何插补 = 22067.58
2 RMSElm2:模型:线性回归,数据:训练 80%,测试 20%:插补一些我认为他们给出相同工资概念的位置 = 22115.64
3 RMSElm3:模型:线性回归+逐步,数据:训练 80%,测试 20% 无任何插补 = 22081.06
4 RMSEdeep1:模型:深度学习(H2O 包激活 = 'Rectifier',隐藏 c(5,5),epochs = 100,),数据:训练 80%,测试 20%:无任何插补 = 16265.13
5 RMSErf1:模型:随机森林(ntree = 10),数据:训练 80%,测试 20% 无任何插补 = 14669.92
6 RMSErf2:模型:随机森林(ntree = 500),数据:训练 80%,测试 20% 无任何插补 [1] 14669.92
7 RMSErf3:模型:随机森林(ntree = 10,)数据:K-Fold 10 无任何插补 [1] 14440.82
8 RMSErf4 模型:随机森林(ntree =10),数据:所有数据集 无任何插补 [1] 13532.74
statistics - ANOVA 结果不一致(AIC VS 偏差)
我正在研究 GLM 模型(使用 glmer)。现在我正在探索是否需要交互项。我想找到最好的模型,但以下结果令人困惑:
AIC 在 g1 中更好,而 g2 显示更好的 logLiK 和偏差。我必须选择哪种型号?
非常感谢您提前提出的所有意见!!
最好的,爱敬
r - 从多个回归模型中提取 AIC
我在 R 中有一些二元逻辑回归模型(超过 100 个)。我想以这种格式列出所有单独的回归模型及其 AIC、空偏差、残余偏差等
是否有可能有一个代码可以为我实现这一目标,避免手动工作
谢谢