它记录在http://scikit-learn.org/0.9/modules/feature_selection.html “警告注意不要使用回归评分函数来处理分类问题。”
我试图找到回归问题的最佳特征,并使用 f_regression 作为评分函数。但它非常消耗内存,我的 8GB 机器挂起,最后我得到内存错误。
我使用 Chi2 作为相同问题的评分函数,它的工作速度非常快。想知道警告的反面是否属实?如果不能,我可以使用Chi2作为回归问题的评分函数吗?
它记录在http://scikit-learn.org/0.9/modules/feature_selection.html “警告注意不要使用回归评分函数来处理分类问题。”
我试图找到回归问题的最佳特征,并使用 f_regression 作为评分函数。但它非常消耗内存,我的 8GB 机器挂起,最后我得到内存错误。
我使用 Chi2 作为相同问题的评分函数,它的工作速度非常快。想知道警告的反面是否属实?如果不能,我可以使用Chi2作为回归问题的评分函数吗?
No you should not use Chi2 scoring function as it has no proved guarantee to be accurate for regression model. You have to check your f_regression solution or use other solution like recursive elimination or PCA(Principle Component Analysis)
http://en.wikipedia.org/wiki/Principal_component_analysis
I personally would advice PCA, it gives very robust results.
如果您的问题是回归,我建议您使用 LASSO。Lasso 只是带有 L1 正则化的标准回归;这具有将许多特征权重驱动为零的效果。
χ² 检验建立一个n_classes
时间列联表n_features
。在回归模型中,没有 的概念n_classes
。使其工作的唯一方法是对您的y
值进行分类,进行特征选择,然后在原始y
特征集和缩减特征集上训练回归模型。scikit-learn 中不支持此功能,因此您必须自己编程。