1

我正在尝试使用带有 Dask 的 GaussianNb 分类器来预测我的测试集。这是我的设置的样子:

X_train = pd.DataFrame.sparse.from_spmatrix(vectorizer.fit_transform(training['X_trn']))
y_train = encoder.fit_transform(training['y_trn'])
X_tst = pd.DataFrame.sparse.from_spmatrix(vectorizer.transform(testing['X_tst']))
y_tst = encoder.transform(testing['y_tst'])

clf = GaussianNB()
clf.fit(X_train, y_train)
clf.predict(X_tst)

我所有的 X 和 y 变量都是 Dask DataFrames,但是,我收到以下错误:

AssertionError: length mismatch: 20 vs. 824

我仔细地将 fit_transform 用于我的训练集并适合我的测试集,但我没有运气。

4

0 回答 0