问题标签 [variable-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 变量选择功能
我想定义一个变量选择函数
我用 df 测试:
目标变量是 Sin
我有以下错误:“错误是 as.formula(paste(form,i), data = data, family = "binomial) : 未使用的参数 (data = data, family = "binomial")
r - 变量选择的阶梯函数不起作用
我正在尝试使用step()
R 中的函数进行变量选择。但它不断出错。然后我发现现在没有step()
像以前那样的基本功能。lmerTest
混合模型的包中有一个阶梯函数。
有谁知道这个的替代功能?
这是错误的屏幕截图:
r - 自动变量选择方法
我有一个疾病数据集,用于这个数据集。disease_rate
是因变量,其余是独立变量。
使用自动方法选择变量
我不确定在这段代码之后应该做什么。如何自动完成变量选择过程?请帮忙。
第二条评论 - 部分
倒数第二行 - 无
r - R:删除/删除多重共线性变量,基于多重共线性测试输出的输出
我有一个包含 32 个变量和 48 个观察值的数据集(观察值会增加,因为我们正处于通过订阅收集数据的阶段)。由于数据集具有高度的多重共线性,我介绍了 Farrar – Glauber Test。测试的单个度量 (idiags) 有一个称为 Klein 的参数,其值为 0s 和 1s,表示变量是否具有多重共线性。现在基于 Klien 的值,我需要从主数据集中删除列。我被困在如何根据数据集 imcdiag_idiagval 中的 Klein 值从主数据集(model_df)中删除/删除。
下面是我的示例代码,model_df0:没有目标变量的数据集 model_df:有目标变量的数据集
在 32 个变量中,Klein 中带 1 的值具有多重共线性。因此需要删除它们
pandas - 熊猫数据框中的选择列应用最小函数
我在列表中有 n-dataframe
其中 df_n 是 pandas (python) 中的数据框。df_n 是我的 keras 模型的变量。
在哪里:
df_1_1 是列表的第一个数据框(第一个变量)和该数据框的第一列,他的数据框有 m 列。
如果此变量应用不同类型的平滑或过滤器,则此数据框的每一列。
我在每个数据帧中有 100 列,我想选择(不同数据帧的)列的组合,X_train 在我的模型得分中具有最小值。
X_test 和 Y_test 是所选列的最后 n 次出现。
有一些用于选定此列的库(神经网络、GA、蚁群...)?
我该如何实施?
r - 使用所有可能的 var 组合实现 lm 测试的自动化,并获取以下值:R 中的 shapiro.test()、bptest()、vif()
我花了几天时间寻找能够满足 R 中所有标准 OLS 假设(正态分布、同方差性、无多重共线性)的最佳模型,但是由于有 12 个变量,因此不可能找到最佳的 var 组合。所以我试图创建一个脚本来自动化这个过程。
这里是计算的示例代码:
我的想法是遍历所有 var 组合并获取 shapiro.test() 和 bptest() 的 P-VALUES 或创建的所有模型的 VIF 值,以便我可以比较显着性值或多重共线性 (在我的数据集中,多重共线性应该不是问题,因为要检查多重共线性,VIF 测试会产生更多值(对于每个 var 1xVIF 因子),这对于在代码中实现可能更具挑战性),p 值shapiro.test + bptest() 就足够了……)。
我尝试编写几个脚本来自动化该过程但没有成功(不幸的是我不是程序员)。我知道已经有一些线程在处理这个问题
但我还没有找到一个也可以计算 P-VALUES 的脚本。
特别是对没有异常值的模型的测试很重要,因为在去除异常值之后,OLS 假设在许多情况下都得到了满足。
我非常感谢任何建议或帮助。
r - 如何使用 R 中的 ExtremeBounds 包将极端边界分析应用于包含 100 多个变量的数据集?
我有一个由 107 个变量和 1794 个观察值组成的数据集。我想实施极限边界分析,以确定 106 个变量中的哪些变量在广泛的回归中与因变量稳健相关,每个变量都有不同的模型规范。我打算为我的最终模型选择最稳健的变量。
我正在使用 Marek Hlavac 的 ExtremeBounds 包。我正在尝试运行以下代码行:
因变量
是一个假人,这就是为什么我在家庭论证中选择二项式链接。
reg.fun 参数用于 R 不运行 OLS 回归,而是运行广义线性模型,例如 logit。
我将 k 参数设置为 0:106。这意味着我想确定包含多达 106 个变量的模型中的变量是否稳健。但是,要估计的模型总数将是巨大的。有 106 个可能的模型,其中仅包含一个解释变量。有 106!/[2!(104!)] 个可能的模型,包括两个解释变量。参数 draws=100 将模型的数量限制为仅 100 个。它仅运行从庞大的模型池中随机选择的 100 个模型,这些模型可以写成 106 个变量的组合。
我相信参数 draws 应该使我的计算机可以执行此任务,但我收到以下错误消息:
我已经检查了文档,因为我没有指定哪些变量是免费的,哪些是焦点,哪些是可疑的,所以所有 106 个变量都应该被视为焦点。我不明白为什么它表明某些焦点变量不在我的数据框中。请告诉我我做错了什么,我怎么能做我打算做的事情。
r - R中的变量选择
我正在设置一个模型以使用变量选择来查找重要变量。
vs = lm(screen_name ~.,data = tweets2)
fitstart = lm(screen_name ~ 1,data = tweets2)
step(fitstart,direction = "forward")
fitstart = lm(screen_name ~ 1,data = tweets2)
step(fitstart, direction = "forward") 错误:此模型的 AIC 为 -infinity,因此“step”无法继续另外:警告消息:在 Ops.factor(weighted.residuals(object), 2) 中:'^ ' 对因子没有意义
r - R - 使用 xgboost 作为特征选择以及交互选择
假设我有一个包含很多变量的数据集(比下面的可复制示例中的变量多),并且我想构建一个简单且可解释的模型,即 GLM。
我可以先使用xgboost模型,然后查看变量的重要性(取决于连续决策树中每个变量的频率和增益)来选择 10 个最具影响力的变量:
问题:有没有办法突出最重要的二维交互?
问题:根据 xgboost 模型,有没有办法突出最重要的交互?
根据特征重要性,我可以构建一个具有 4 个变量(wt
、gear
、qsec
、hp
)的 GLM,但我想知道是否wt:hp
应该在简单模型中添加一些 2d 交互(例如 )。
python - 使用 AIC 进行变量选择并评估多元回归中的标准
我对 R 和 Python 相当陌生。我喜欢使用 Akaike Information Criterion 执行多元回归以进行变量选择并评估我的标准。
我编写了一些代码来使用 F Statistic P 值选择我的变量。数据集由房价信息组成
我计划将变量(即xvar)回归到转售价格(即yvar)。
而不是使用 minpv 来选择我的变量,我想使用 AIC 来选择变量。
还想使用 AIC 而不是 fpv 评估转售价格标准
感谢我能得到的任何形式的帮助,并在此先感谢您!!