“gpt-2”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

363 浏览

pytorch - 为什么 GPT2Model 的某些权重没有初始化？

我正在将 GPT2 预训练模型用于研究项目，当我使用以下代码加载预训练模型时，

我收到以下警告消息：

GPT2Model 的一些权重没有从 gpt2 的模型检查点初始化，而是重新初始化：['h.0.attn.masked_bias', 'h.1.attn.masked_bias', 'h.2.attn.masked_bias', ' h.3.attn.masked_bias'，'h.4.attn.masked_bias'，'h.5.attn.masked_bias'，'h.6.attn.masked_bias'，'h.7.attn.masked_bias'，' h.8.attn.masked_bias', 'h.9.attn.masked_bias', 'h.10.attn.masked_bias', 'h.11.attn.masked_bias'] 你应该在下游训练这个模型任务能够将其用于预测和推理。

据我了解，它表示上述层的权重不是从预训练模型初始化的。但是我们都知道注意力层（'attn'）在 GPT2 中非常重要，如果我们不能从预训练模型中获得它们的实际权重，那么使用预训练模型有什么意义呢？

如果有人能向我解释这个并告诉我如何解决这个问题，我真的很感激。

2021-05-04T05:59:46.893

0 投票

1 回答

46 浏览

artificial-intelligence - 使用 AI 生成器提出问题来激发思考而不是给出答案？

我有一个用例，我想用它来帮助独立创作者利用他们的经验在 Twitter 上谈论他们的兴趣。

它是这样的：

你有兴趣谈论创业

你有类似疼痛的经历

有没有办法让人工智能（如 GPT）生成提示，使用这两个词来创建一个开放式问题列表，这些问题会引发如下想法：

如果创业不痛苦，它会是什么样子？
对于创业者应该知道的痛苦，你知道多少？
你怎样才能降低创业的门槛，让一个人接受创业的痛苦不那么痛苦？

如果是这样，它将如何工作，我需要做什么？

我在 GPT-3 上探索了 Open AI 的文档，我不清楚它是否解决了生成提示的问题。

谢谢！

artificial-intelligence gpt-2 gpt-3

2021-05-05T14:25:52.433

0 投票

1 回答

389 浏览

nlp - 如何在翻译任务的 GPT2 训练中增加批量大小？

我正在开发一个代码来使用预先训练的GPT2模型来完成机器翻译任务。我的数据 word-to-id 的长度是 91，我为我的模型开发了以下代码：

当批量大小为 1 时，此代码运行良好。但它太慢了。我想将批量大小从 1 增加到 32，但我遇到了一些尺寸兼容性问题。如何在没有错误的情况下增加批量大小？

我的数据由一对句子组成，第一个是第一语言的句子，第二个是第二语言的翻译。

例如，假设 x.shape 是 (batch_size, 12) （意味着我们有长度为 12 的 'batch_size' 句子作为输入，y.shape 也是 (batch_size, 12) （翻译）。而且我们还有一个词-长度为 90 的 to-id 字典，将句子中的每个单词与其索引匹配）

nlp pytorch gpt-2

2021-05-08T06:12:06.140

0 投票

1 回答

325 浏览

utf-8 - JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0) ---While Tuning gpt2.finetune

希望你们都做得很好，我正在微调 GPT 2 模型以根据内容生成标题，在处理它时，我创建了一个简单的 CSV 文件，其中只包含标题来训练模型，但是在输入这个模型时到 GPT 2 进行微调我在 () 10 steps=1000, 11 save_every=200, ---> 12 sample_every=25) 中收到以下 ERROR , JSONDecodeError Traceback (last recent call last) #steps is max number of training步骤 13 14 # gpt2.generate(sess)

utf-8 byte-order-mark gpt-2

2021-05-19T06:57:50.897

0 投票

1 回答

75 浏览