0

我正在使用以下参数设置运行 h2o 随机森林

model_rf <- h2o.randomForest(x = predictors, y = labels,
                         training_frame = train_data, classification = T,
                         importance = T,
                         verbose = T, type = "BigData", ntree = 50)

运行后,我得到以下输出。

Model Details:
==============

H2ORegressionModel: drf
Model ID:  DRFModel__906d074da6ebf8057525b2b61c1c4c87 
Model Summary:
  number_of_trees model_size_in_bytes min_depth max_depth mean_depth      min_leaves  max_leaves mean_leaves
1       50.000000      2708173.000000 20.000000 20.000000   20.00000     4200.000000 5241.000000  4720.70000


H2ORegressionMetrics: drf
** Reported on training data. **
Description: Metrics reported on Out-Of-Bag training samples

MSE:  0.0006302392
R2 :  -0.03751038

以下是我的问题。

1) MSE 和 R2 是什么意思?

2)如果它们是均方误差或类似的,为什么我要获得这些指标用于分类设置?

3) 我如何获得其他指标,如 gini 或 auc?

4)我可以说如果这两个参数随着不同的参数设置而减少,我的模型性能有所提高吗?

4

1 回答 1

0

以下是您问题的答案: 1. MSE 代表均方误差。从本质上讲,它测量了估计器和估计器之间的差异。R2 测量了统计模型的拟合程度。

  1. 使用 MSE,您可以判断对错误分类数据建模的频率。

  2. 如果您使用 Flow,请单击Inspect,然后单击output-training_metrics以查看 MSE、R2、AUC、gini 等。

  3. 抱歉,我不确定我是否理解这个问题。您是在问降低的 gini 或 AUC 是否等同于改进的模型性能?

阿维尼

于 2015-10-01T19:20:20.730 回答