问题标签 [variable-selection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
36 浏览

r - 变量选择功能

我想定义一个变量选择函数

我用 df 测试:

目标变量是 Sin

我有以下错误:“错误是 as.formula(paste(form,i), data = data, family = "binomial) : 未使用的参数 (data = data, family = "binomial")

0 投票
1 回答
332 浏览

r - 变量选择的阶梯函数不起作用

我正在尝试使用step()R 中的函数进行变量选择。但它不断出错。然后我发现现在没有step()像以前那样的基本功能。lmerTest混合模型的包中有一个阶梯函数。

有谁知道这个的替代功能?

这是错误的屏幕截图:

在此处输入图像描述

0 投票
1 回答
713 浏览

r - 自动变量选择方法

我有一个疾病数据集,用于这个数据集。disease_rate是因变量,其余是独立变量。

使用自动方法选择变量

我不确定在这段代码之后应该做什么。如何自动完成变量选择过程?请帮忙。

第二条评论 - 部分

倒数第二行 - 无

0 投票
2 回答
1396 浏览

r - R:删除/删除多重共线性变量,基于多重共线性测试输出的输出

我有一个包含 32 个变量和 48 个观察值的数据集(观察值会增加,因为我们正处于通过订阅收集数据的阶段)。由于数据集具有高度的多重共线性,我介绍了 Farrar – Glauber Test。测试的单个度量 (idiags) 有一个称为 Klein 的参数,其值为 0s 和 1s,表示变量是否具有多重共线性。现在基于 Klien 的值,我需要从主数据集中删除列。我被困在如何根据数据集 imcdiag_idiagval 中的 Klein 值从主数据集(model_df)中删除/删除。

下面是我的示例代码,model_df0:没有目标变量的数据集 model_df:有目标变量的数据集

在 32 个变量中,Klein 中带 1 的值具有多重共线性。因此需要删除它们

0 投票
1 回答
117 浏览

pandas - 熊猫数据框中的选择列应用最小函数

我在列表中有 n-dataframe

其中 df_n 是 pandas (python) 中的数据框。df_n 是我的 keras 模型的变量。

在哪里:

df_1_1 是列表的第一个数据框(第一个变量)和该数据框的第一列,他的数据框有 m 列。

如果此变量应用不同类型的平滑或过滤器,则此数据框的每一列。

我在每个数据帧中有 100 列,我想选择(不同数据帧的)列的组合,X_train 在我的模型得分中具有最小值。

X_test 和 Y_test 是所选列的最后 n 次出现。

有一些用于选定此列的库(神经网络、GA、蚁群...)?

我该如何实施?

0 投票
2 回答
187 浏览

r - 使用所有可能的 var 组合实现 lm 测试的自动化,并获取以下值:R 中的 shapiro.test()、bptest()、vif()

我花了几天时间寻找能够满足 R 中所有标准 OLS 假设(正态分布、同方差性、无多重共线性)的最佳模型,但是由于有 12 个变量,因此不可能找到最佳的 var 组合。所以我试图创建一个脚本来自动化这个过程。

这里是计算的示例代码:

我的想法是遍历所有 var 组合并获取 shapiro.test() 和 bptest() 的 P-VALUES 或创建的所有模型的 VIF 值,以便我可以比较显着性值或多重共线性 (在我的数据集中,多重共线性应该不是问题,因为要检查多重共线性,VIF 测试会产生更多值(对于每个 var 1xVIF 因子),这对于在代码中实现可能更具挑战性),p 值shapiro.test + bptest() 就足够了……)。

我尝试编写几个脚本来自动化该过程但没有成功(不幸的是我不是程序员)。我知道已经有一些线程在处理这个问题

如何使用多个变量和一个因子的所有可能组合运行 lm 模型

为高 R 平方值寻找最佳变量组合

但我还没有找到一个也可以计算 P-VALUES 的脚本。

特别是对没有异常值的模型的测试很重要,因为在去除异常值之后,OLS 假设在许多情况下都得到了满足。

我非常感谢任何建议或帮助。

0 投票
1 回答
125 浏览

r - 如何使用 R 中的 ExtremeBounds 包将极端边界分析应用于包含 100 多个变量的数据集?

我有一个由 107 个变量和 1794 个观察值组成的数据集。我想实施极限边界分析,以确定 106 个变量中的哪些变量在广泛的回归中与因变量稳健相关,每个变量都有不同的模型规范。我打算为我的最终模型选择最稳健的变量。

我正在使用 Marek Hlavac 的 ExtremeBounds 包。我正在尝试运行以下代码行:

因变量

是一个假人,这就是为什么我在家庭论证中选择二项式链接。

reg.fun 参数用于 R 不运行 OLS 回归,而是运行广义线性模型,例如 logit。

我将 k 参数设置为 0:106。这意味着我想确定包含多达 106 个变量的模型中的变量是否稳健。但是,要估计的模型总数将是巨大的。有 106 个可能的模型,其中仅包含一个解释变量。有 106!/[2!(104!)] 个可能的模型,包括两个解释变量。参数 draws=100 将模型的数量限制为仅 100 个。它仅运行从庞大的模型池中随机选择的 100 个模型,这些模型可以写成 106 个变量的组合。

我相信参数 draws 应该使我的计算机可以执行此任务,但我收到以下错误消息:

我已经检查了文档,因为我没有指定哪些变量是免费的,哪些是焦点,哪些是可疑的,所以所有 106 个变量都应该被视为焦点。我不明白为什么它表明某些焦点变量不在我的数据框中。请告诉我我做错了什么,我怎么能做我打算做的事情。

0 投票
1 回答
274 浏览

r - R中的变量选择

我正在设置一个模型以使用变量选择来查找重要变量。

vs = lm(screen_name ~.,data = tweets2) fitstart = lm(screen_name ~ 1,data = tweets2) step(fitstart,direction = "forward") fitstart = lm(screen_name ~ 1,data = tweets2)

step(fitstart, direction = "forward") 错误:此模型的 AIC 为 -infinity,因此“step”无法继续另外:警告消息:在 Ops.factor(weighted.residuals(object), 2) 中:'^ ' 对因子没有意义

0 投票
0 回答
1051 浏览

r - R - 使用 xgboost 作为特征选择以及交互选择

假设我有一个包含很多变量的数据集(比下面的可复制示例中的变量多),并且我想构建一个简单且可解释的模型,即 GLM。

我可以先使用xgboost模型,然后查看变量的重要性(取决于连续决策树中每个变量的频率和增益)来选择 10 个最具影响力的变量:

问题:有没有办法突出最重要的二维交互?

问题:根据 xgboost 模型,有没有办法突出最重要的交互?

根据特征重要性,我可以构建一个具有 4 个变量(wtgearqsechp)的 GLM,但我想知道是否wt:hp应该在简单模型中添加一些 2d 交互(例如 )。

0 投票
1 回答
831 浏览

python - 使用 AIC 进行变量选择并评估多元回归中的标准

我对 R 和 Python 相当陌生。我喜欢使用 Akaike Information Criterion 执行多元回归以进行变量选择并评估我的标准。

我编写了一些代码来使用 F Statistic P 值选择我的变量。数据集由房价信息组成

我计划将变量(即xvar)回归到转售价格(即yvar)。

而不是使用 minpv 来选择我的变量,我想使用 AIC 来选择变量。

还想使用 AIC 而不是 fpv 评估转售价格标准

感谢我能得到的任何形式的帮助,并在此先感谢您!!