我正在使用doc2vec 嵌入氨基酸序列来尝试预测动力学速率。
我已经尝试过标准化和不标准化我的输入向量(X),但除非我标准化我的输出变量(动力学速率),否则我的 GP 模型预测所有测试输入的数字非常相似(在 4.87 和 4.9 之间)?
你应该标准化你的输出值还是我的模型有问题?
我在 Python 中使用GPy包。
这是我的代码:
#GP Regression for word vectors
def Gp_regression(Xtrain, Ytrain, Xtest, Ytest):
kernel = GPy.kern.RBF(input_dim = 64, variance = 1, lengthscale = 1)
m = GPy.models.GPRegression(Xtrain, Ytrain, kernel=kernel, noise_var=1e-10)
m.optimize_restarts(num_restarts = 10)
Xtest = np.ndarray(shape=(1,64))
mean = m.predict(Xtest)
return mean