我尝试使用和调整基于拥抱脸模型的笔记本:GLUE 上的文本分类(https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/text_classification.ipynb#scrollTo=YZbiBDuGIrId)
我的目标是对一个句子进行分类(预定义 16 个类)。
所以我跟着笔记本做了。我的数据如下所示。
id data label langue
0 text_1 label_1 Français
0 text_2 label_2 Français
1 text_3 label_3 Français
import pandas as pd
import numpy as np
from datasets import load_dataset, load_metric, DatasetDict, Features, Value, ClassLabel, Dataset
我有一个这样的标签
{'label_1': 0,
'label_2': 1,
...}
dataset = load_dataset('csv', sep="|", data_files={"train" : train_paths, "test" : test_paths})
输出:
DatasetDict({
train: Dataset({
features: ['id', 'data', 'label', 'langue'],
num_rows: ...
})
test: Dataset({
features: ['id', 'data', 'label', 'langue'],
num_rows: ...
})
})
以前在笔记本中做过所有事情,当我尝试这样做时:
trainer = Trainer(
model,
args,
train_dataset=encoded_dataset["train"],
eval_dataset=encoded_dataset[validation_key],
tokenizer=tokenizer,
compute_metrics= compute_metrics,
callbacks=[MLflowCallback()]
)
trainer.train()
我有错误:The following columns in the training set don't have a corresponding argument in
CamembertForSequenceClassification.forward and have been ignored: langue, id, data.
IndexError: tuple index out of range
我能做些什么 ?