以下是在 TPOT 中训练模型的基本代码:
from tpot import TPOTClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target,
train_size=0.75, test_size=0.25, random_state=42)
tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))
最后,它在测试集上对数据进行评分,而没有明确地进行在训练集上进行的转换。这里有几个问题。
- 当对新的样本外数据调用 .score 或 .predict 时,“tpot”模型对象是否会自动应用任何缩放或其他转换?
- 如果没有,在调用 .score .predict 之前对测试集执行转换的正确方法是什么。
如果我完全误解了这一点,请教育。谢谢你。