1

我尝试使用和调整基于拥抱脸模型的笔记本:GLUE 上的文本分类https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/text_classification.ipynb#scrollTo=YZbiBDuGIrId

我的目标是对一个句子进行分类(预定义 16 个类)。

所以我跟着笔记本做了。我的数据如下所示。

id  data     label              langue

0   text_1   label_1            Français
 
0   text_2   label_2            Français

1   text_3   label_3            Français


import pandas as pd
import numpy as np
from datasets import load_dataset, load_metric, DatasetDict, Features, Value, ClassLabel, Dataset

我有一个这样的标签

{'label_1': 0,
 'label_2': 1,
 ...}

dataset = load_dataset('csv', sep="|", data_files={"train" : train_paths, "test" : test_paths})

输出:

DatasetDict({
    train: Dataset({
        features: ['id', 'data', 'label', 'langue'],
        num_rows: ...
    })
    test: Dataset({
        features: ['id', 'data', 'label', 'langue'],
        num_rows: ...
    })
})

以前在笔记本中做过所有事情,当我尝试这样做时:

trainer = Trainer(
    model,
    args,
    train_dataset=encoded_dataset["train"],
    eval_dataset=encoded_dataset[validation_key],
    tokenizer=tokenizer,
    compute_metrics= compute_metrics,
    callbacks=[MLflowCallback()]
)

trainer.train()

我有错误:The following columns in the training set don't have a corresponding argument in CamembertForSequenceClassification.forward and have been ignored: langue, id, data. IndexError: tuple index out of range

我能做些什么 ?

4

0 回答 0