python - Optuna 在很多试验中建议相同的参数值（重复试验浪费时间和预算）

Question

出于某种原因，Optuna TPESampler 和 RandomSampler 对任何参数多次尝试相同的建议整数值（也可能是浮点数和 loguniforms）。我找不到阻止它再次建议相同值的方法。在 100 次试验中，有不少只是重复的。在 100 次试验中，唯一建议值计数最终约为 80-90。如果我包含更多用于调整的参数，比如 3 个，我什至会看到所有 3 个参数在 100 次试验中都获得相同的值几次。

就像这样。75 for min_data_in_leaf 被使用了 3 次：

[I 2020-11-14 14:44:05,320] 试验 8 完成了值：45910.54012028659 和参数：{'min_data_in_leaf': 75}。最好的是试用 4，其值为：45805.19030897498。

[I 2020-11-14 14:44:07,876] 试验 9 完成值：45910.54012028659 和参数：{'min_data_in_leaf': 75}。最好的是试用 4，其值为：45805.19030897498。

[I 2020-11-14 14:44:10,447] 试验 10 完成了值：45831.75933279074 和参数：{'min_data_in_leaf': 43}。最好的是试用 4，其值为：45805.19030897498。

[I 2020-11-14 14:44:13,502] 试验 11 完成值：46125.39810101329 和参数：{'min_data_in_leaf': 4}。最好的是试用 4，其值为：45805.19030897498。

[I 2020-11-14 14:44:16,547] 试验 12 完成了值：45910.54012028659 和参数：{'min_data_in_leaf': 75}。最好的是试用 4，其值为：45805.19030897498。

下面的示例代码：

def lgb_optuna(trial):

    rmse = []

    params = {
        "seed": 42,
        "objective": "regression",
        "metric": "rmse",
        "verbosity": -1,
        "boosting": "gbdt",
        "num_iterations":  1000,
        'min_data_in_leaf':  trial.suggest_int('min_data_in_leaf', 1, 100)
    }

    cv = StratifiedKFold(n_splits=5, random_state=42, shuffle=False)
    for train_index, test_index in cv.split(tfd_train, tfd_train[:,-1]):
        X_train, X_test = tfd_train[train_index], tfd_train[test_index]
        y_train = X_train[:,-2].copy()
        y_test = X_test[:,-2].copy()
        
        dtrain = lgb.Dataset(X_train[:,:-2], label=y_train)
        dtest = lgb.Dataset(X_test[:,:-2], label=y_test)
    
        booster_gbm = lgb.train(params, dtrain, valid_sets=dtest, verbose_eval=False)

        y_predictions = booster_gbm.predict(X_test[:,:-2])
        final_mse = mean_squared_error(y_test, y_predictions)
        final_rmse = np.sqrt(final_mse)
        rmse.append(final_rmse)

     return np.mean(rmse)

study = optuna.create_study(sampler=TPESampler(seed=42), direction='minimize') 
study.optimize(lgb_optuna, n_trials=100)

score 3 · Accepted Answer

问题是您在此行中指定的采样器：

study = optuna.create_study(sampler=TPESampler(seed=42), direction='minimize')

TPESampler不是一个统一的采样器。这是一个不同的采样器，它试图从有希望的值范围内进行采样。在此处和此处查看详细信息。这就是为什么你会看到很多重复的原因。对于优化器来说，它们是有希望的值，然后它们会被进一步探索，可能是不同的组合。

要进行真正的统一采样，您应该将采样器更改为：

sampler=RandomSampler(seed)

这不能保证不会有重复，但值会更均匀地分布

如果要确保只搜索不同的组合，则应使用GridSampler. 如文档所述：

试验建议研究期间给定搜索空间中的所有参数组合。

文档在这里

score 1 · Accepted Answer

如果这些参数之前已经运行过，我有我的目标函数检查 study.trials_dataframe()，然后返回 study.trials_dataframe().value 如果有的话。

python - Optuna 在很多试验中建议相同的参数值（重复试验浪费时间和预算）

2 回答 2

Related

Reference