我在 CSV 文件中有训练数据,其第一个元素是结果,其余元素构成特征向量。
我正在使用 Weka 对这些训练数据进行训练和测试各种算法。但是现在我想多次使用经过训练的模型来测试不属于训练数据的特征向量,我不知道如何去做。我认为我可以通过使用 scikit-learn 来做到这一点。请提供一些帮助。
我在 CSV 文件中有训练数据,其第一个元素是结果,其余元素构成特征向量。
我正在使用 Weka 对这些训练数据进行训练和测试各种算法。但是现在我想多次使用经过训练的模型来测试不属于训练数据的特征向量,我不知道如何去做。我认为我可以通过使用 scikit-learn 来做到这一点。请提供一些帮助。
只需对数据进行切片,例如分类问题:
>>> import numpy as np
>>> from sklearn.ensemble import ExtraTreesClassifier
>>> data_train = np.loadtxt('data_train.csv', delimiter=',')
>>> X = data_train[:, 1:]
>>> y = data_train[:, 0].astype(np.int)
>>> clf = ExtraTreesClassifier(n_estimators=100).fit(X, y)
然后对第一列没有目标标签的测试数据进行预测:
>>> data_test = np.loadtxt('data_test.csv', delimiter=',')
>>> print(clf.predict(data_test))