问题标签 [variable-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 变量选择涉及数字、高基数、低基数特征的混合
考虑一个虚拟数据框:
该数据框有25个自变量和1个目标变量,自变量是高基数特征、数值特征和低基数特征的混合,目标变量是数值。现在我首先要选择或过滤有助于预测目标变量的变量。对实现这一目标的任何建议或技巧表示赞赏。希望我的问题很清楚,如果问题的形式不清楚,我欢迎提出更正的建议。
到目前为止我尝试了什么?我对目标变量的分类特征应用了目标均值编码(平滑均值)。然后我应用随机森林来了解变量的重要性。奇怪的是,随机森林一直只选择一个特征,我预计至少有 3-4 个有意义的变量。我尝试了神经网络,但结果没有什么不同,这是什么原因?如果算法只使用一个变量,这意味着什么?并且测试预测不是很准确。RMSE 约为 2.4,其中目标特征的值通常在 20-40 之间。感谢您耐心阅读本文。PS:我正在使用 SKlearn 和 python。
r - 我们应该根据以下描述在逻辑回归中包含还是排除变量?
我们应该在 logit regr 中包含还是排除变量。仅在发生特定事件时才会获取值的模型,否则将显示 N/A?这个变量告诉我们是否会根据公司的电话购买产品。 该变量表示:从上一个广告系列中最后一次联系客户之后经过的天数。值 (-1) 适用于以前未联系过的用户
r - 随机森林中的变量选择和预测精度
我有一个横截面数据集重复了 2 年,2009 年和 2010 年。我使用第一年(2009 年)作为训练集来训练回归问题的随机森林,第二年(2010 年)作为测试集.
加载数据
df <- read.csv("https://www.dropbox.com/s/t4iirnel5kqgv34/df.cv?dl=1")
在 2009 年训练随机森林后,变量重要性表明该变量x1
是最重要的变量。
使用所有变量的随机森林
可变重要性
然后我转到测试集,我收到以下准确度指标。
对测试集的预测和评估
然后,当我在没有变量的情况下训练模型x1
时,这是上面最重要的变量,并将训练后的模型应用于测试集,我观察到以下情况:
解释的方差
x1
比没有x1
预期的要高但是对于
RMSE
测试数据来说,没有更好x1
(RMSE
:2258.041x1
与 1885.462 没有x1
)尽管如此
MAE
,使用x1
(299.0751) 与没有它 (302.3382) 相比要好一些。
不包括 x1 的随机森林
可变重要性
对测试集的预测和评估
我知道变量重要性是指训练模型而不是测试模型,但这是否意味着x1
变量不应该包含在模型中?
那么,我应该包含x1
在模型中吗?
r - R解释随机森林变量选择示例代码
我有随机森林变量选择的示例代码。我们希望选择最重要的变量组合,并建立具有最低 OOB 的随机森林模型。任何人都可以为我解释函数中的 for 循环部分吗?
r - 增强后向消除变量选择中的 R 代码
我有一个包含 357 名患者的数据集。最终模型中大约有 10-15 个潜在变量可供选择。一些变量高度相关。所以我决定使用增强后向消除变量选择方法。
但是,我一直无法解决。下面是错误消息
任何帮助深表感谢。谢谢你
r - glmnet 在使用预测时产生错误
我似乎有问题glmnet
。我想运行常规 LASSO 回归,以了解 10 个变量中的哪一个(Dim1
... Dim2
)对预测我的连续变量贡献最大ptScores
。所有变量都是连续的,validInd
是一个 data.frame,两者trainingData
都是validationData
长度为 95 的字符向量。
运行以下代码:
并在最后一步后出现此错误:
我也尝试使用预测中的所有数据,但得到了同样的错误。
可重现的例子:
科目是这张表:
validInd 是这张表(我已经从 190 行中修剪了 125 行,行名在第一列中 - 它不是变量):
python - 如何使用用户输入来访问变量?
我正在创建一个程序,我想在其中提示用户纽约市行政区,并使用所述行政区的一般 GPS 坐标。我的部分代码是
我现在想使用输入响应来访问适当的坐标。例如,如果用户输入“Manhattan”,我可以使用一些变体input().lower()
来获取相应的自治市镇数据。
我从这个答案中知道,如果我想使用输入创建一个变量,我可以这样做。有没有办法访问变量?
r - StepAIC() 停止点
我试图了解StepAIC()
. 使用 时direction = 'backward'
,如果进一步删除条款不再降低模型 AIC,它会停止吗?示例如下:
这是否意味着删除任何术语 wt、qsec 或 am 根本不会降低模型 AIC(即所有 AIC=61.31)?
model - 如何在sas的proc reg中逐步选择的所有选择模型中添加t统计值?
在 SAS 中使用上述代码在每一步生成 3 个表(因为逐步没有删除任何变量):
- 入境统计
- 方差分析
- 包含 5 列的表格:变量、参数估计、标准误差、II 型 SS、F 值、Pr>F。
我想在表 3 中再添加一列,其中包含每个变量的 t 值(以衡量该变量的贡献)。
怎么做?
提前致谢
r - 在 R 中使用前向选择的逐步 AIC
我正在尝试使用 R 中的逐步 AIC 进行前向变量选择,但我认为我没有得到想要的结果。具体来说,该函数应该从没有变量开始,并不断添加变量并获取它们的 AIC 值。但是,当我运行它时,我只会得到所有变量的 AIC 值。我哪里错了?这是我的代码-
输出 -