问题标签 [gpt-2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pytorch - 为什么 GPT2Model 的某些权重没有初始化?
我正在将 GPT2 预训练模型用于研究项目,当我使用以下代码加载预训练模型时,
我收到以下警告消息:
GPT2Model 的一些权重没有从 gpt2 的模型检查点初始化,而是重新初始化:['h.0.attn.masked_bias', 'h.1.attn.masked_bias', 'h.2.attn.masked_bias', ' h.3.attn.masked_bias','h.4.attn.masked_bias','h.5.attn.masked_bias','h.6.attn.masked_bias','h.7.attn.masked_bias',' h.8.attn.masked_bias', 'h.9.attn.masked_bias', 'h.10.attn.masked_bias', 'h.11.attn.masked_bias'] 你应该在下游训练这个模型任务能够将其用于预测和推理。
据我了解,它表示上述层的权重不是从预训练模型初始化的。但是我们都知道注意力层('attn')在 GPT2 中非常重要,如果我们不能从预训练模型中获得它们的实际权重,那么使用预训练模型有什么意义呢?
如果有人能向我解释这个并告诉我如何解决这个问题,我真的很感激。
artificial-intelligence - 使用 AI 生成器提出问题来激发思考而不是给出答案?
我有一个用例,我想用它来帮助独立创作者利用他们的经验在 Twitter 上谈论他们的兴趣。
它是这样的:
你有兴趣谈论创业
你有类似疼痛的经历
有没有办法让人工智能(如 GPT)生成提示,使用这两个词来创建一个开放式问题列表,这些问题会引发如下想法:
- 如果创业不痛苦,它会是什么样子?
- 对于创业者应该知道的痛苦,你知道多少?
- 你怎样才能降低创业的门槛,让一个人接受创业的痛苦不那么痛苦?
如果是这样,它将如何工作,我需要做什么?
我在 GPT-3 上探索了 Open AI 的文档,我不清楚它是否解决了生成提示的问题。
谢谢!
nlp - 如何在翻译任务的 GPT2 训练中增加批量大小?
我正在开发一个代码来使用预先训练的GPT2模型来完成机器翻译任务。我的数据 word-to-id 的长度是 91,我为我的模型开发了以下代码:
当批量大小为 1 时,此代码运行良好。但它太慢了。我想将批量大小从 1 增加到 32,但我遇到了一些尺寸兼容性问题。如何在没有错误的情况下增加批量大小?
我的数据由一对句子组成,第一个是第一语言的句子,第二个是第二语言的翻译。
例如,假设 x.shape 是 (batch_size, 12) (意味着我们有长度为 12 的 'batch_size' 句子作为输入,y.shape 也是 (batch_size, 12) (翻译)。而且我们还有一个词-长度为 90 的 to-id 字典,将句子中的每个单词与其索引匹配)
utf-8 - JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0) ---While Tuning gpt2.finetune
希望你们都做得很好,我正在微调 GPT 2 模型以根据内容生成标题,在处理它时,我创建了一个简单的 CSV 文件,其中只包含标题来训练模型,但是在输入这个模型时到 GPT 2 进行微调我在 () 10 steps=1000, 11 save_every=200, ---> 12 sample_every=25) 中收到以下 ERROR , JSONDecodeError Traceback (last recent call last) #steps is max number of training步骤 13 14 # gpt2.generate(sess)
artificial-intelligence - 使用 GPT-2 语言模型的文本补全如何生成完整的 URL?
我在 Fabrice Bellard 先生的网站上找到了这个自动文本完成功能。然后我问像在图片中:
所以我的问题是:响应文本是随机生成的还是由我输入的文本控制的(如果它由我输入的文本控制,为什么它与我输入的问题无关?)?它怎么可能生成指向网页的链接(我无法访问)?
我是 AI 和中立网络(以及这类事情)的新手,如果这是一个愚蠢的问题,请原谅我(因为我对此非常好奇)。
machine-learning - 根据新数据微调 GPT-2/3
我正试图集中精力在新数据集上训练 OpenAI 的语言模型。这里有人有这方面的经验吗?我的想法是用教科书提供 GPT-2 或 3(尽管我没有 API 访问 3),对其进行训练,然后能够用语言模型“讨论”本书的内容。我认为我不必更改任何超参数,我只需要模型中的更多数据。
可能吗??
非常感谢任何(也是概念性的)帮助!
nlp - 如何准备数据以使用新语言从头开始训练 GPT 模型
经过一周的挣扎,我不得不来这里请教专业人士。我一直在尝试使用 PyTorch 从头开始编写我自己的 GPT 模型,我完成了这部分工作,但现在我对如何为预训练部分准备数据感到困惑,例如我尝试使用 sentencePiece 标记器来标记我的巨大“印地语”语言语料库,但不知何故它正在抛出错误。
那么任何人都可以指导我如何准备印地语语料库以预训练我的 GPT,任何用于标记或准备数据的库?
这是我尝试过的:我正在使用tokenizers
库。
这不适用于我的语料库。
所以主要问题是如何准备我的语料库来预训练我的 GPT。
colab 笔记本:https ://colab.research.google.com/drive/1UdLrJ8zioMqsSylf4VGmETJiELP6FzFQ?usp=sharing
数据集链接:https ://drive.google.com/file/d/1MKA3FMDUMRqz-_AACv068zWqdHCYamvA/view?usp=sharing
tensorflow2.0 - 在 tensorflow 中使用 GPT2 转换器时,grads 为 None
我从 gpt2 加载预训练模型,TFGPT2LMHeadModel
并使用它的综合句子给出提示来计算损失。
损失似乎还可以,它是一个张量,例如`
<tf.Tensor: shape=(), dtype=float32, numpy=1.0446845>
`
但是所有的元素grads
都是
没有任何
为什么这个?有什么提示吗?
谢谢。
tensorflow - 即使在 tensorflow 1.13.2 上也没有名为“tensorflow.contrib”的模块
由于错误,我无法导入 gpt_2_simple 包
我已经安装了 python 3.7 并尝试安装 tensorflow 1.15.5、1.15.2 和 1.13.2,他们都遇到了这个错误。我使用窗户。
python - 如何从预训练的 GPT2 模型中获取 onnx 格式?
我正在尝试将由 GPT2 预训练的 KoGPT2 模型转换为 onnx 格式,以便将模型更改为 tensorflow 格式。
我用过convert_graph_to_onnx
,transformers
但由于某些原因它不起作用。
我不知道这个错误意味着什么。这个模型可以制作onnx格式吗?这是我实现的代码,最后一个是错误。
谢谢。