问题标签 [variable-selection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
45 浏览

python - 变量选择涉及数字、高基数、低基数特征的混合

考虑一个虚拟数据框:

该数据框有25个自变量和1个目标变量,自变量是高基数特征、数值特征和低基数特征的混合,目标变量是数值。现在我首先要选择或过滤有助于预测目标变量的变量。对实现这一目标的任何建议或技巧表示赞赏。希望我的问题很清楚,如果问题的形式不清楚,我欢迎提出更正的建议。

到目前为止我尝试了什么?我对目标变量的分类特征应用了目标均值编码(平滑均值)。然后我应用随机森林来了解变量的重要性。奇怪的是,随机森林一直只选择一个特征,我预计至少有 3-4 个有意义的变量。我尝试了神经网络,但结果没有什么不同,这是什么原因?如果算法只使用一个变量,这意味着什么?并且测试预测不是很准确。RMSE 约为 2.4,其中目标特征的值通常在 20-40 之间。感谢您耐心阅读本文。PS:我正在使用 SKlearn 和 python。

0 投票
0 回答
45 浏览

r - 我们应该根据以下描述在逻辑回归中包含还是排除变量?

我们应该在 logit regr 中包含还是排除变量。仅在发生特定事件时才会获取值的模型,否则将显示 N/A?这个变量告诉我们是否会根据公司的电话购买产品。 该变量表示:从上一个广告系列中最后一次联系客户之后经过的天数。值 (-1) 适用于以前未联系过的用户

0 投票
1 回答
630 浏览

r - 随机森林中的变量选择和预测精度

我有一个横截面数据集重复了 2 年,2009 年和 2010 年。我使用第一年(2009 年)作为训练集来训练回归问题的随机森林,第二年(2010 年)作为测试集.

加载数据

df <- read.csv("https://www.dropbox.com/s/t4iirnel5kqgv34/df.cv?dl=1")

在 2009 年训练随机森林后,变量重要性表明该变量x1是最重要的变量。

使用所有变量的随机森林

可变重要性

然后我转到测试集,我收到以下准确度指标。

对测试集的预测和评估

然后,当我在没有变量的情况下训练模型x1时,这是上面最重要的变量,并将训练后的模型应用于测试集,我观察到以下情况:

  • 解释的方差x1比没有x1预期的要高

  • 但是对于RMSE测试数据来说,没有更好x1RMSE:2258.041x1与 1885.462 没有x1

  • 尽管如此MAE,使用x1(299.0751) 与没有它 (302.3382) 相比要好一些。

不包括 x1 的随机森林

可变重要性

对测试集的预测和评估

我知道变量重要性是指训练模型而不是测试模型,但这是否意味着x1变量应该包含在模型中?

那么,我应该包含x1在模型中吗?

0 投票
0 回答
68 浏览

r - R解释随机森林变量选择示例代码

我有随机森林变量选择的示例代码。我们希望选择最重要的变量组合,并建立具有最低 OOB 的随机森林模型。任何人都可以为我解释函数中的 for 循环部分吗?

0 投票
1 回答
71 浏览

r - 增强后向消除变量选择中的 R 代码

我有一个包含 357 名患者的数据集。最终模型中大约有 10-15 个潜在变量可供选择。一些变量高度相关。所以我决定使用增强后向消除变量选择方法。

但是,我一直无法解决。下面是错误消息

任何帮助深表感谢。谢谢你

0 投票
1 回答
462 浏览

r - glmnet 在使用预测时产生错误

我似乎有问题glmnet。我想运行常规 LASSO 回归,以了解 10 个变量中的哪一个(Dim1... Dim2)对预测我的连续变量贡献最大ptScores。所有变量都是连续的,validInd是一个 data.frame,两者trainingData都是validationData长度为 95 的字符向量。

运行以下代码:

glmnet 输出

并在最后一步后出现此错误:

我也尝试使用预测中的所有数据,但得到了同样的错误。

可重现的例子:

科目是这张表:

validInd 是这张表(我已经从 190 行中修剪了 125 行,行名在第一列中 - 它不是变量):

0 投票
1 回答
56 浏览

python - 如何使用用户输入来访问变量?

我正在创建一个程序,我想在其中提示用户纽约市行政区,并使用所述行政区的一般 GPS 坐标。我的部分代码是

我现在想使用输入响应来访问适当的坐标。例如,如果用户输入“Manhattan”,我可以使用一些变体input().lower()来获取相应的自治市镇数据。

我从这个答案中知道,如果我想使用输入创建一个变量,我可以这样做。有没有办法访问变量?

0 投票
2 回答
65 浏览

r - StepAIC() 停止点

我试图了解StepAIC(). 使用 时direction = 'backward',如果进一步删除条款不再降低模型 AIC,它会停止吗?示例如下:

这是否意味着删除任何术语 wt、qsec 或 am 根本不会降低模型 AIC(即所有 AIC=61.31)?

0 投票
1 回答
17 浏览

model - 如何在sas的proc reg中逐步选择的所有选择模型中添加t统计值?

在 SAS 中使用上述代码在每一步生成 3 个表(因为逐步没有删除任何变量):

  1. 入境统计
  2. 方差分析
  3. 包含 5 列的表格:变量、参数估计、标准误差、II 型 SS、F 值、Pr>F。

我想在表 3 中再添加一列,其中包含每个变量的 t 值(以衡量该变量的贡献)。

怎么做?

提前致谢

0 投票
1 回答
510 浏览

r - 在 R 中使用前向选择的逐步 AIC

我正在尝试使用 R 中的逐步 AIC 进行前向变量选择,但我认为我没有得到想要的结果。具体来说,该函数应该从没有变量开始,并不断添加变量并获取它们的 AIC 值。但是,当我运行它时,我只会得到所有变量的 AIC 值。我哪里错了?这是我的代码-

输出 -