“fine-tune”的相关标签问题

0 投票

1 回答

70 浏览

tensorflow - Tensorflow：访问查看层激活（微调），

我使用微调。如何查看和访问卷积基础内所有层的激活？

模型摘要是

conv_base因此，无法访问内部的级别。

2021-10-08T19:47:10.197

0 投票

0 回答

742 浏览

bert-language-model - 微调 BERT 句子转换器模型

我正在使用预训练的 BERT 句子转换器模型，如此处所述https://www.sbert.net/docs/training/overview.html来获取句子的嵌入。

我想微调这些预训练的嵌入，我按照上面链接的教程中的说明进行操作。根据本教程，您可以通过输入句子对和一个标签分数来微调预训练模型，该标签分数表示成对中两个句子之间的相似性分数。我了解这种微调是使用下图所示的架构进行的：

对中的每个句子首先使用 BERT 模型进行编码，然后“池化”层聚合（通常通过取平均值）由 Bert 层生成的词嵌入，从而为每个句子生成单个嵌入。在最后一步计算两个句子嵌入的余弦相似度，并与标签分数进行比较。

我的问题是 - 在使用给定架构微调模型时，哪些参数正在优化？是不是只微调了BERT模型最后一层的参数？通过查看教程中显示的微调模型的代码示例，我不清楚这一点。

bert-language-model sentence-transformers fine-tune

2021-10-13T21:38:33.320

0 投票

1 回答

40 浏览

reinforcement-learning - 以非常低的学习率进行微调。有什么不好的迹象吗？

我研究过深度强化学习，在文献中，学习率通常低于我在其他环境中发现的。

我的模型如下：

其中初始学习率 (lr) 为 3e-5。对于微调，我冻结了前两层（这一步在我的设置中是必不可少的）并将学习率降低到 3e-9。在微调过程中，一旦样本源受到扰动数据，模型可能会遭受分布偏移。如此低的学习率让我的模型不断改进，除此之外还有其他问题来源吗？

reinforcement-learning transfer-learning dqn fine-tune

2021-10-16T14:28:41.237

0 投票

0 回答

51 浏览

bert-language-model - Huggingface 微调 bert-large-uncased-whole-word-masking 模型时出现类型错误

我正在尝试微调 Huggingface bert-large-uncased-whole-word-masking 模型，并且在训练时出现这样的类型错误：

“TypeError：只有单个元素的整数张量可以转换为索引”

这是代码：

然后我随机屏蔽了 input-ids 中大约 15% 的单词，并为数据集定义了一个类，然后错误发生在训练循环中：

错误发生在“for batch in loop”中

有人理解它并知道如何解决这个问题吗？在此先感谢您的帮助

bert-language-model fine-tune

2021-10-28T12:34:57.027

0 投票

1 回答

120 浏览

python - 如何在 Python 中加载 .mdl 文件？

我计划使用自定义数据集（特别是EmpatheticDialogues数据集）为我的聊天机器人微调 GPT 转换器模型。存储库为他们的项目提供了一个 .mdl 文件。如何将这些 .mdl 文件加载到我的 ipynb 文件中？我需要加载他们的任何 .mdl 文件来微调我的 GPT 变压器模型（称为 DialoGPT）是否正确？

我已经尝试在此Google Colab Notebook的指导下仅加载所述存储库的 .csv 数据集。但是，在使用上述数据集训练模型后，我只是在测试模型时得到随机符号。

python chatbot huggingface-transformers gpt fine-tune

2021-11-02T12:30:42.893

0 投票

0 回答

57 浏览

python - 在微调变压器中无法获取锁（缓存文件）错误

我正在使用 jupyter 微调 T5 变压器。我尝试运行从 github 获取的代码，但是当我尝试训练模型时遇到问题，这是一段代码model = T5FineTuner(args) ，但出现此错误

错误的详细信息如下

我是初学者，所以在我第一次尝试运行fine_tune 模型时尝试帮助我。
谢谢

python model jupyter transformer fine-tune

2021-11-04T14:33:42.590

0 投票

1 回答

37 浏览

utf-8 - 微调后 OpenAI 预测的编码问题

我正在关注这个关于微调的OpenAI 教程。

我已经使用 openai 工具生成了数据集。问题是输出编码（推理结果）将 UTF-8 与非 UTF-8 字符混合在一起。

生成的模型如下所示：

例如，如果我问“¿Cómo estás？” 并且该句子有一个经过训练的完成：“Estoy bien, ¿y tú?”，推理通常返回完全相同（这很好），但有时它会添加非编码词：“Estoy bien, ¿y tú? CuÃ ©ntame algo de ti”，添加“é”而不是“é”。

有时，它会返回与受过训练的句子完全相同的句子，而不会出现编码问题。我不知道推理是从我的模型还是从其他地方获取非编码字符。

我应该怎么办？我应该用 UTF-8 编码数据集吗？我应该使用 UTF-8 保留数据集并解码响应中的错误编码字符吗？

用于微调的 OpenAI 文档不包含任何关于编码的内容。

utf-8 character-encoding openai gpt-3 fine-tune

2021-11-11T12:44:06.600

0 投票

1 回答

63 浏览

nlp - 如何微调 BERT Base（未封装模型）以生成嵌入？

在互联网上，我发现的只是分类任务的示例。但是，在我的问题中没有标签。（我只有一组推文）。我的任务如下：使用 BERT 生成词嵌入，现在在下一个任务中使用这个词嵌入。我的目标：我想微调 BERT 以产生更好的词嵌入。怎么做？

nlp bert-language-model word-embedding summarization fine-tune

2021-11-12T12:45:25.290

0 投票

0 回答

77 浏览

huggingface-transformers - 为什么在特定域上微调 BERT 传销不起作用？我究竟做错了什么？

我是新来的。我正在尝试在目标域上微调 BERT MLM（bert-base-uncased）。不幸的是，结果并不好。

在微调之前，预训练模型会用符合人类期望的单词填充句子的掩码。
例如，维基百科是一个免费的在线 [MASK]，由世界各地的志愿者创建和编辑。
最可能的预测是百科全书（得分：0.650）和资源（得分：0.087）。

经过微调，预测完全错误。通常将停用词预测为结果。
例如，维基百科是一个免费的在线 [MASK]，由世界各地的志愿者创建和编辑。
最可能的预测是（分数：0.052）和是（分数：0.033）。

我尝试了不同的时期（从 1 到 10）和不同的数据集（从几 MB 到几 GB），但我遇到了同样的问题。我究竟做错了什么？我正在使用以下代码，希望您能帮助我。

huggingface-transformers bert-language-model pre-trained-model fine-tune

2021-11-18T15:30:31.257

0 投票

0 回答

14 浏览

tensorflow - BERT FineTuning 训练时间

我正在尝试使用 M1 芯片上著名的电影评论数据集来微调 Bert 模型。

一个 epoch 的 ETA 估计为 10 小时，以完善所有 66M 参数。

为了减少ETA，我想将前两层设置为trainable=False，所以现在可训练的参数是2K。

即使我放弃了可训练的参数，也没有任何改变，ETA 仍然是 10h。

你认为这是正常的还是我这边有问题？

谢谢

tensorflow fine-tune

2021-11-21T11:30:54.543

问题标签 [fine-tune]

Reference