我正在尝试使用 scikit-learn 和 GP。我尝试使用库的默认优化器进行预测。这是我使用简单内核列表所做的事情,其中超参数的边界是固定的,如此处所示
kernels=[1.0 * RBF(length_scale=1.0, length_scale_bounds=(0.0001, 10.0)),
1.0 * RationalQuadratic(length_scale=1.0, alpha=0.1,length_scale_bounds=(0.0001,100.0),alpha_bounds=(0.001,1000000000000000.0)),
1.0 * ExpSineSquared(length_scale=1.0, periodicity=3.0,
length_scale_bounds=(0.0001, 10.0),
periodicity_bounds=(0.001, 100000.0)),
1.0* (DotProduct(sigma_0=1.0, sigma_0_bounds=(0.0011, 100.0)) ** 2),
1.0 * Matern(length_scale=1.0, length_scale_bounds=(0.0001, 100.0),
nu=1.5)]
接着:
for kernel in kernels:
gp = GaussianProcessRegressor(kernel=kernel,n_restarts_optimizer=100, alpha=0.1, normalize_y=True)
gp.fit(etraininga,ctraining)
y_pred,sigma = gp.predict(energyiter, return_std=True)
yvalues.append(y_pred)
但是,有人建议我最好手动搜索超参数,搜索最高的 LML。进行此计算后,我查看了优化的超参数,例如,对于 RBF 内核,我获得的尺度长度为:
RBF(length_scale=1)
一旦我知道该值,我就尝试搜索存储在包含 1 的数组中的许多比例长度值。手动搜索超参数的代码是:
for x,item in enumerate(scalelengthvalues):
kernels =1.0*RBF(length_scale=item,length_scale_bounds="fixed")
gp = GaussianProcessRegressor(kernel=kernels,alpha=0.1,optimizer=None,normalize_y=True)
gp.fit(etraininga,ctraining)
y_pred,sigma = gp.predict(energyiter, return_std=True)
index.append(x)
LML.append(gp.log_marginal_likelihood(gp.kernel_.theta))
maxLML=max(LML)
n=LML.index(maxLML)
bestsl=scalelengthvalues[n]
kernels =1.0*RBF(length_scale=bestsl,length_scale_bounds="fixed")
gp = GaussianProcessRegressor(kernel=kernels,alpha=0.1,n_restarts_optimizer=0,optimizer=None,normalize_y=True)
gp.fit(etraininga,ctraining)
y_pred,sigma = gp.predict(energyiter, return_std=True)
然后我得到的尺度长度的最佳结果是 0.2。有什么我做错了吗?我选择这个作为例子来询问,因为它只取决于一个超参数。我需要进行此搜索,因为我有兴趣采用迭代算法通过优化搜索来搜索内核组合。