所以我想使用 cleanlab 改进可能的 sktime 分类器。以下是一些示例数据
x=np.linspace(0,3,500)
X_true=np.array([randint(1,10)*np.sin(x) for _ in range(100)])
X_false=np.array([randint(1,10)*np.tan(x) for i in range(100)])
y=[True for _ in range (100)]+[False for _ in range (100)]
df=pd.concat([pd.DataFrame(X_true),pd.DataFrame(X_false)])
df['y']=y
df = df.sample(frac=1).reset_index(drop=True)
X=df.drop('y', axis=1).to_numpy()
y=df['y'].to_numpy()
True
这将为带有 label 的 sin 函数和带有 label 的tan 函数创建时间序列数据集False
。为了创建一些标签错误,我们将前 20 个目标设置为 True
y[:20]=True
现在我正在使用sktime
分类器来查找每个时间序列的标签,效果很好
>>> X=from_2d_array_to_nested(X)
>>> clf=TimeSeriesForestClassifier(n_jobs=-1).fit(X,y)
>>> clf.score(X,y)
0.95
但是,我想用来cleanlab
通知分类器他的一些训练标签可能不正确
>>> LearningWithNoisyLabels(clf=TimeSeriesForestClassifier()).fit(X,y)
但这会导致 KeyError
KeyError: "None of [Int64Index([ 1, 2, 4, 5, 6, 7, 11, 13, 15, 17,\n ...\n 186, 187, 188, 190, 191, 192, 194, 196, 198, 199],\n dtype='int64', length=160)] are in the [columns]"
由于LearningWithNoisyLabels
与其他分类器一起为我工作,我猜 sktime 分类器有问题,但我不确定
版本信息:
>>> cleanlab.__version__, sktime.__version__
('0.1.1', '0.5.3')
进口:
>>> from cleanlab.classification import LearningWithNoisyLabels
>>> from sktime.utils.data_processing import from_2d_array_to_nested
>>> from sktime.classification.all import TimeSeriesForestClassifier