1

我从一个示例中看到,您可以通过调整 label_list 参数来使用 Hugging Face 转换器库创建一个多类分类器。

train_dataset = glue_convert_examples_to_features(examples=train_dataset, tokenizer=tokenizer
                                                  , max_length=5, task='cola'
                                                  , label_list =['0','1'])
valid_dataset = glue_convert_examples_to_features(examples=test_dataset, tokenizer=tokenizer
                                                  , max_length=5, task='cola'
                                                  , label_list =['0','1'])

以上似乎在 2 个 epoch 后以大约 70% 的准确度工作,所以我假设代码正在工作。然后我尝试使用亚马逊产品评论数据集,其中“reviewText”字段在“整体”字段中被分类为 1-5 之间的数字。模型仍在训练,但准确度非常低(.000ish)所以我不确定是否代码实际上是正确的。

我知道我将“可乐”作为任务参数留下了,这是一个潜在的问题,但我还有什么遗漏的吗?

train_dataset = glue_convert_examples_to_features(examples=train_dataset, tokenizer=tokenizer
                                                  , max_length=5, task='cola'
                                                  , label_list =['1','2','3','4','5'])
valid_dataset = glue_convert_examples_to_features(examples=test_dataset, tokenizer=tokenizer
                                                  , max_length=5, task='cola'
                                                  , label_list =['1','2','3','4','5'])
4

0 回答 0