问题标签 [fine-tune]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
70 浏览

tensorflow - Tensorflow:访问查看层激活(微调),

我使用微调。如何查看和访问卷积基础内所有层的激活?

模型摘要是

conv_base因此,无法访问内部的级别。

0 投票
0 回答
742 浏览

bert-language-model - 微调 BERT 句子转换器模型

我正在使用预训练的 BERT 句子转换器模型,如此处所述https://www.sbert.net/docs/training/overview.html来获取句子的嵌入。

我想微调这些预训练的嵌入,我按照上面链接的教程中的说明进行操作。根据本教程,您可以通过输入句子对和一个标签分数来微调预训练模型,该标签分数表示成对中两个句子之间的相似性分数。我了解这种微调是使用下图所示的架构进行的:

在此处输入图像描述

对中的每个句子首先使用 BERT 模型进行编码,然后“池化”层聚合(通常通过取平均值)由 Bert 层生成的词嵌入,从而为每个句子生成单个嵌入。在最后一步计算两个句子嵌入的余弦相似度,并与标签分数进行比较。

我的问题是 - 在使用给定架构微调模型时,哪些参数正在优化?是不是只微调了BERT模型最后一层的参数?通过查看教程中显示的微调模型的代码示例,我不清楚这一点。

0 投票
1 回答
40 浏览

reinforcement-learning - 以非常低的学习率进行微调。有什么不好的迹象吗?

我研究过深度强化学习,在文献中,学习率通常低于我在其他环境中发现的。

我的模型如下:

其中初始学习率 (lr) 为 3e-5。对于微调,我冻结了前两层(这一步在我的设置中是必不可少的)并将学习率降低到 3e-9。在微调过程中,一旦样本源受到扰动数据,模型可能会遭受分布偏移。如此低的学习率让我的模型不断改进,除此之外还有其他问题来源吗?

0 投票
0 回答
51 浏览

bert-language-model - Huggingface 微调 bert-large-uncased-whole-word-masking 模型时出现类型错误

我正在尝试微调 Huggingface bert-large-uncased-whole-word-masking 模型,并且在训练时出现这样的类型错误:

“TypeError:只有单个元素的整数张量可以转换为索引”

这是代码:

然后我随机屏蔽了 input-ids 中大约 15% 的单词,并为数据集定义了一个类,然后错误发生在训练循环中:

错误发生在“for batch in loop”中

有人理解它并知道如何解决这个问题吗?在此先感谢您的帮助

0 投票
1 回答
120 浏览

python - 如何在 Python 中加载 .mdl 文件?

我计划使用自定义数据集(特别是EmpatheticDialogues数据集)为我的聊天机器人微调 GPT 转换器模型。存储库为他们的项目提供了一个 .mdl 文件。如何将这些 .mdl 文件加载到我的 ipynb 文件中?我需要加载他们的任何 .mdl 文件来微调我的 GPT 变压器模型(称为 DialoGPT)是否正确?

我已经尝试在此Google Colab Notebook的指导下仅加载所述存储库的 .csv 数据集。但是,在使用上述数据集训练模型后,我只是在测试模型时得到随机符号。

0 投票
0 回答
57 浏览

python - 在微调变压器中无法获取锁(缓存文件)错误

我正在使用 jupyter 微调 T5 变压器。我尝试运行从 github 获取的代码,但是当我尝试训练模型时遇到问题,这是一段代码model = T5FineTuner(args) ,但出现此错误

错误的详细信息如下

我是初学者,所以在我第一次尝试运行fine_tune 模型时尝试帮助我。
谢谢

0 投票
1 回答
37 浏览

utf-8 - 微调后 OpenAI 预测的编码问题

我正在关注这个关于微调的OpenAI 教程。

我已经使用 openai 工具生成了数据集。问题是输出编码(推理结果)将 UTF-8 与非 UTF-8 字符混合在一起。

生成的模型如下所示:

例如,如果我问“¿Cómo estás?” 并且该句子有一个经过训练的完成:“Estoy bien, ¿y tú?”,推理通常返回完全相同(这很好),但有时它会添加非编码词:“Estoy bien, ¿y tú? Cuà ©ntame algo de ti”,添加“é”而不是“é”。

有时,它会返回与受过训练的句子完全相同的句子,而不会出现编码问题。我不知道推理是从我的模型还是从其他地方获取非编码字符。

我应该怎么办?我应该用 UTF-8 编码数据集吗?我应该使用 UTF-8 保留数据集并解码响应中的错误编码字符吗?

用于微调的 OpenAI 文档不包含任何关于编码的内容。

0 投票
1 回答
63 浏览

nlp - 如何微调 BERT Base(未封装模型)以生成嵌入?

在互联网上,我发现的只是分类任务的示例。但是,在我的问题中没有标签。(我只有一组推文)。我的任务如下:使用 BERT 生成词嵌入,现在在下一个任务中使用这个词嵌入。我的目标:我想微调 BERT 以产生更好的词嵌入。怎么做?

0 投票
0 回答
77 浏览

huggingface-transformers - 为什么在特定域上微调 BERT 传销不起作用?我究竟做错了什么?

我是新来的。我正在尝试在目标域上微调 BERT MLM(bert-base-uncased)。不幸的是,结果并不好。

在微调之前,预训练模型会用符合人类期望的单词填充句子的掩码。
例如,维基百科是一个免费的在线 [MASK],由世界各地的志愿者创建和编辑。
最可能的预测是百科全书(得分:0.650)和资源(得分:0.087)。

经过微调,预测完全错误。通常将停用词预测为结果。
例如,维基百科是一个免费的在线 [MASK],由世界各地的志愿者创建和编辑。
最可能的预测是分数:0.052)和(分数:0.033)。

我尝试了不同的时期(从 1 到 10)和不同的数据集(从几 MB 到几 GB),但我遇到了同样的问题。我究竟做错了什么?我正在使用以下代码,希望您能帮助我。

0 投票
0 回答
14 浏览

tensorflow - BERT FineTuning 训练时间

我正在尝试使用 M1 芯片上著名的电影评论数据集来微调 Bert 模型。

一个 epoch 的 ETA 估计为 10 小时,以完善所有 66M 参数。

为了减少ETA,我想将前两层设置为trainable=False,所以现在可训练的参数是2K。

即使我放弃了可训练的参数,也没有任何改变,ETA 仍然是 10h。

你认为这是正常的还是我这边有问题?

谢谢