问题标签 [variable-selection]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

27 问题

0 投票

0 回答

45 浏览

python - 变量选择涉及数字、高基数、低基数特征的混合

考虑一个虚拟数据框：

该数据框有25个自变量和1个目标变量，自变量是高基数特征、数值特征和低基数特征的混合，目标变量是数值。现在我首先要选择或过滤有助于预测目标变量的变量。对实现这一目标的任何建议或技巧表示赞赏。希望我的问题很清楚，如果问题的形式不清楚，我欢迎提出更正的建议。

到目前为止我尝试了什么？我对目标变量的分类特征应用了目标均值编码（平滑均值）。然后我应用随机森林来了解变量的重要性。奇怪的是，随机森林一直只选择一个特征，我预计至少有 3-4 个有意义的变量。我尝试了神经网络，但结果没有什么不同，这是什么原因？如果算法只使用一个变量，这意味着什么？并且测试预测不是很准确。RMSE 约为 2.4，其中目标特征的值通常在 20-40 之间。感谢您耐心阅读本文。PS：我正在使用 SKlearn 和 python。

2020-02-12T08:23:48.117

0 投票

0 回答

45 浏览

r - 我们应该根据以下描述在逻辑回归中包含还是排除变量？

我们应该在 logit regr 中包含还是排除变量。仅在发生特定事件时才会获取值的模型，否则将显示 N/A？这个变量告诉我们是否会根据公司的电话购买产品。该变量表示：从上一个广告系列中最后一次联系客户之后经过的天数。值 (-1) 适用于以前未联系过的用户

r logistic-regression variable-selection

2020-04-19T15:07:11.200

0 投票

1 回答

630 浏览

r - 随机森林中的变量选择和预测精度

我有一个横截面数据集重复了 2 年，2009 年和 2010 年。我使用第一年（2009 年）作为训练集来训练回归问题的随机森林，第二年（2010 年）作为测试集.

加载数据

df <- read.csv("https://www.dropbox.com/s/t4iirnel5kqgv34/df.cv?dl=1")

在 2009 年训练随机森林后，变量重要性表明该变量x1是最重要的变量。

使用所有变量的随机森林

可变重要性

然后我转到测试集，我收到以下准确度指标。

对测试集的预测和评估

然后，当我在没有变量的情况下训练模型x1时，这是上面最重要的变量，并将训练后的模型应用于测试集，我观察到以下情况：

解释的方差x1比没有x1预期的要高
但是对于RMSE测试数据来说，没有更好x1（RMSE：2258.041x1与 1885.462 没有x1）
尽管如此MAE，使用x1(299.0751) 与没有它 (302.3382) 相比要好一些。

不包括 x1 的随机森林

可变重要性

对测试集的预测和评估

我知道变量重要性是指训练模型而不是测试模型，但这是否意味着x1变量不应该包含在模型中？

那么，我应该包含x1在模型中吗？

r random-forest feature-selection variable-selection

2020-04-30T17:19:46.190

0 投票

0 回答

68 浏览

r - R解释随机森林变量选择示例代码

我有随机森林变量选择的示例代码。我们希望选择最重要的变量组合，并建立具有最低 OOB 的随机森林模型。任何人都可以为我解释函数中的 for 循环部分吗？

r for-loop random-forest variable-selection

2020-05-13T07:08:33.050

0 投票

1 回答

71 浏览

r - 增强后向消除变量选择中的 R 代码

我有一个包含 357 名患者的数据集。最终模型中大约有 10-15 个潜在变量可供选择。一些变量高度相关。所以我决定使用增强后向消除变量选择方法。

但是，我一直无法解决。下面是错误消息

任何帮助深表感谢。谢谢你

r variable-selection

2020-11-09T04:12:32.153

0 投票

1 回答

462 浏览

r - glmnet 在使用预测时产生错误

我似乎有问题glmnet。我想运行常规 LASSO 回归，以了解 10 个变量中的哪一个（Dim1... Dim2）对预测我的连续变量贡献最大ptScores。所有变量都是连续的，validInd是一个 data.frame，两者trainingData都是validationData长度为 95 的字符向量。

运行以下代码：

glmnet 输出

并在最后一步后出现此错误：

我也尝试使用预测中的所有数据，但得到了同样的错误。

可重现的例子：

科目是这张表：

validInd 是这张表（我已经从 190 行中修剪了 125 行，行名在第一列中 - 它不是变量）：

r glmnet lasso-regression variable-selection

2020-11-10T13:13:57.057

0 投票

1 回答

56 浏览

python - 如何使用用户输入来访问变量？

我正在创建一个程序，我想在其中提示用户纽约市行政区，并使用所述行政区的一般 GPS 坐标。我的部分代码是

我现在想使用输入响应来访问适当的坐标。例如，如果用户输入“Manhattan”，我可以使用一些变体input().lower()来获取相应的自治市镇数据。

我从这个答案中知道，如果我想使用输入创建一个变量，我可以这样做。有没有办法访问变量？

python input variable-selection

2020-12-06T19:55:36.143

0 投票

2 回答

65 浏览

r - StepAIC() 停止点

我试图了解StepAIC(). 使用时direction = 'backward'，如果进一步删除条款不再降低模型 AIC，它会停止吗？示例如下：

这是否意味着删除任何术语 wt、qsec 或 am 根本不会降低模型 AIC（即所有 AIC=61.31）？

r regression variable-selection

2021-01-20T14:12:39.583

0 投票

1 回答

17 浏览

model - 如何在sas的proc reg中逐步选择的所有选择模型中添加t统计值？

在 SAS 中使用上述代码在每一步生成 3 个表（因为逐步没有删除任何变量）：

入境统计
方差分析
包含 5 列的表格：变量、参数估计、标准误差、II 型 SS、F 值、Pr>F。

我想在表 3 中再添加一列，其中包含每个变量的 t 值（以衡量该变量的贡献）。

怎么做？

提前致谢

model sas linear-regression proc variable-selection

2021-04-13T15:08:15.000

0 投票

1 回答

510 浏览

r - 在 R 中使用前向选择的逐步 AIC

我正在尝试使用 R 中的逐步 AIC 进行前向变量选择，但我认为我没有得到想要的结果。具体来说，该函数应该从没有变量开始，并不断添加变量并获取它们的 AIC 值。但是，当我运行它时，我只会得到所有变量的 AIC 值。我哪里错了？这是我的代码-

输出 -

r regression best-fit-curve variable-selection

2021-05-20T15:54:08.523

1 2 3 4 5 6 7 8 9 10

问题标签 [variable-selection]

加载数据

使用所有变量的随机森林

可变重要性

对测试集的预测和评估

不包括 x1 的随机森林

可变重要性

对测试集的预测和评估

Reference