问题标签 [fine-tune]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
95 浏览

nlp - 哪个 HuggingFace 模型用于在预训练任务上微调 mBART?

我想使用本文facebook/mbart-large-cc25中引用的一些预训练任务(即令牌掩蔽(又名传销)、文本填充、句子排列......)对我的数据进行微调以生成文本。

在转换器存储库中有一些用于其中一些任务的脚本。

例如,通过运行作为模型run_clm.py传递的脚本facebook/mbart-large-cc25,我得到一个警告,告诉我模型的某些权重不用于初始化MBartForCausalLM

由于我想微调 mBART 以生成文本,这是一个问题吗?在那次预训练之后,我的计划是将获得的权重加载到MBartForConditionalGeneration我的数据上进行微调,并使用它来生成文本。

0 投票
1 回答
106 浏览

python - 使用 Trainer API 预训练 BERT 模型时出现 ValueError

transformers我正在尝试通过在库中使用 Trainer API 来微调/预训练现有的 BERT 模型以进行情绪分析。我的训练数据集如下所示:

我的目标是能够将情绪分类为正面/负面。这是我的代码:

这会引发错误消息:

我做错了什么?任何建议都受到高度赞赏。

0 投票
1 回答
22 浏览

tensorflow - 为什么使用相同代码时我的 PC 与 Kaggle 的准确性不同

我正在编写一个水印检测算法,并且我尝试了来自 Kaggle 的代码来微调 ResNet,但是当我在 Jupyter 笔记本中运行相同的代码时,当 Kaggle 中的示例代码有大约 97% 时,我得到 50% 的准确率准确性。我的 PC 上没有安装 GPU,我将批量大小更改为 32。你知道为什么我的准确率会降低 40% 吗?

我的代码:

0 投票
2 回答
244 浏览

python - RuntimeError:使用 Trainer API 进行微调时发现 dtype Long 但预期 Float

我正在尝试使用 Huggingface Trainer API 微调 BERT 模型以进行情绪分析(将文本分类为正面/负面)。我的数据集有两列TextSentiment它看起来像这样。

这是我的代码:

运行此引发错误:

错误可能来自数据集本身,但我可以用我的代码以某种方式修复它吗?我搜索了互联网,这个错误似乎之前已经通过“将张量转换为浮点数”解决了,但是我将如何使用 Trainer API 来解决这个问题?任何建议都非常感谢。

一些参考:

https://discuss.pytorch.org/t/run-backward-expected-dtype-float-but-got-dtype-long/61650/10

0 投票
0 回答
39 浏览

python - 为什么最后带有 Dense(1) 的 JAX 模型会给出形状为 (25,) 的输出?

我正在尝试按照此示例微调预训练模型。目的是对蛋白质序列进行二元分类。
我的代码如下所示:

如果我理解正确,模型末尾的大小为 1 的密集层应该产生大小为 1 的输出,但是,最后两行的输出是:

为什么我得到 25 个数字而不是 1 个?我哪里出错了?

在损失函数的训练过程中已经出现了这个问题,它给出了以下错误: TypeError: Gradient only defined for scalar-output functions. Output had shape: (25,).

的来源jax_unirep可以在这里找到。

提前感谢您的任何建议。

0 投票
0 回答
37 浏览

python - Fine-Tunning 时正确使用 BatchNormalization

我正在使用 keras 和 TF 2.0 我正在尝试将在 ImageNet 上预训练的 ResNet50 实施到不同的问题(肺炎二进制分类),我发现网上有一些关于如何正确设置批量标准化层的讨论精细调整。我的问题是我是否应该冻结模型中的所有层,或者跳过批量标准化层来进行适当的微调。我的意思是,如果resnet是预训练模型

或者

我达到了 97% 的测试准确率,但我认为它应该在这样一个简单的任务中表现得更好。我应该使用哪种冷冻方式?

0 投票
1 回答
29 浏览

python - Pytorch - 从自定义功能和类进行微调训练的问题

我的问题的核心是我的功能来自 NumPy 文件 (.npy)。

因此我的代码中需要以下类

要将我的 NumPy 文件转换为 DataLoaders,我执行以下操作。下面的代码似乎有效(至少,没有返回错误)

我正在尝试用 12 个类对这些数据中的 RESNET-50 网络进行微调。这是我所做的

最后,这是有问题的训练函数

执行代码后,这将返回以下错误:

错误显然是数据加载器变量,所以这个创建可以吗?我的意思是,我正在加载 NumPy 数据并将其转换为数据加载器,如下所示:

我的数据加载器有任何错误还是 Pytorch 的训练循环有问题?

Ps:您可以通过在这里下载类和功能来重现我的代码

0 投票
1 回答
50 浏览

c++ - 如何微调这个基本数学表达式(使用 fp)以匹配这些输入/输出?

这是我的代码:

我需要对其进行微调以输出这些counters,对于每个h(使用我的实际 pc/编译器):

相反,它给了我这个:

0 投票
0 回答
18 浏览

python - 微调pytorch中的自动编码器

我已经训练了一个具有 3 个卷积层的自动编码器。现在我想使用编码器部分进行分类任务。因此,我加载模型并在一个新类中使用编码器部分,并添加一个具有十个神经元的线性层。问题是当我用主要权重训练网络时它不起作用,但是当我重置权重时它起作用。这是我加载和定义新网络的方式。

这是主要自动编码器的架构。

在此处输入图像描述

0 投票
0 回答
12 浏览

machine-learning - 用于微调 gpt-2 以生成代码的数据格式

我正在关注这个https://github.com/nshepperd/gpt-2 repo 来微调 gpt-2 355M 模型,我已经从 github 收集(注释、代码)对到一个文本文件中,其中数据具有以下格式 :

这是微调 gpt-2 模型的正确格式吗?