问题标签 [gpt-2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pytorch - HuggingFace - config.json 中的 GPT2 标记器配置
GPT2 微调模型上传到huggingface-models以进行推理
在推理过程中观察到以下错误,
无法使用 from_pretrained 加载标记器,请更新其配置:无法为“bala1802/model_1_test”加载标记器。确保: - “bala1802/model_1_test”是“https://huggingface.co/models”上列出的正确模型标识符 - 或“bala1802/model_1_test”是包含相关标记器文件的目录的正确路径
下面是 Finetuned huggingface 模型的配置 - config.json 文件,
我是否应该像"model_type": "gpt2"
在 config.json 文件中一样配置 GPT2 Tokenizer
nlp - 少数镜头学习期间 GPT2/GPT3 模型的变化
在迁移学习期间,我们采用预训练的网络和一些观察对(输入和标签),并使用这些数据通过反向传播来微调权重。然而,在一次性/少数镜头学习期间,根据这篇论文——“语言模型是少数镜头学习者”(https://arxiv.org/pdf/2005.14165.pdf),“不执行梯度更新”。那么 GPT2 和 GPT3 等模型在 one shot/few shot 学习过程中会发生什么变化?
nlp - 如何使用 BERT/GPT-2 进行释义生成
我正在努力理解如何使用 BERT/GPT-2 进行释义生成。我不明白我该怎么做。您能否提供我能够制作释义生成模型的任何资源? “输入将是一个句子,输出将是该句子的释义”
tensorflow - 加快 GPT2 的推理时间 - 优化 tf.sess.run()
我正在尝试优化 GPT2 的推理时间。在 Google Colab 上调用脚本后生成样本的当前时间为 55 秒。我输入了时间戳以尝试找出瓶颈在哪里。这是代码:
线
是复杂性所在。有没有人有办法改进这段代码?太感谢了!
python - GPT2Simple 运行时出现问题
我正在尝试运行此 GPT2Simple 示例,但出现错误
这是代码,取自https://github.com/minimaxir/gpt-2-simple
我还从 Tensorflow 2.0 降级到了 Tensorflow 1.15,因为存在问题tf.contrib
或其他问题
nlp - 微调 GPT-2
我正在尝试微调 GPT-2 的任务,如果我给出五个连续的数字,下一个连续的数字是什么。例如,如果input_text = "one | two | three | four | five"
,output_text = "six | seven... | ten"
。
我通过 huggingface API 使用的模型的重要部分如下:
我可以的输出是试图吐出数字,但不幸的是看起来像这样。输出从显示标签的位置开始,否则它只是复制内容。请注意,GPT-2 标记器没有:
所以问题是为什么它会在一堆 <|endoftext|> 标记之后生成一个可能的候选者。在训练集中,通过“”字(它不是实际的标记)组合输入和输出,并且输出立即出现,没有任何填充。
这与我在下面定义的我使用的标记器有关吗?
可以在此处找到有关 colab 的工作示例。
bert-language-model - BERT 和 GPT2 之间的主要区别?
我读了很多文章,人们说 BERT 对 NLU 有好处,而 GPT 对 NLG 有好处。但它们在结构上的关键区别在于是否在 self-attention 中添加或不添加掩码,并以不同的方式训练模型。
从下面的代码中,如果我理解正确,我们可以自由选择是否添加注意蒙版。 https://github.com/huggingface/transformers/blob/master/src/transformers/models/bert/modeling_bert.py https://github.com/huggingface/transformers/blob/master/src/transformers/models/gpt2 /modeling_gpt2.py
那么我是否可以得出这样的结论,即“BERT 的预训练参数对 NLU 有好处”和“GPT2 的预训练参数对 NLG 有好处”?或者这两者之间是否有任何其他关键区别使人们得出我在开头提到的这个结论?
flask - 在 Google Cloud Run 上提供 GPT2 的 Flask 应用程序没有保留下载的文件?
我有一个在 Google Cloud Run 上运行的 Flask 应用程序,它需要下载一个大型模型(来自 huggingface 的 GPT-2)。这需要一段时间来下载,所以我正在尝试设置它只在部署时下载,然后只为后续访问提供服务。也就是说,我的主烧瓶应用 app.py 导入的脚本中有以下代码:
这基本上会尝试加载下载的模型,如果失败,它会下载模型的新副本。我将自动缩放设置为至少 1,我认为这意味着某些东西会一直在运行,因此即使在活动之后下载的文件也会持续存在。但是当有些人尝试使用它时,它必须重新下载模型,这会冻结应用程序。我正在尝试重新创建类似这个应用程序https://text-generator-gpt2-app-6q7gvhilqq-lz.a.run.app/的东西,它似乎没有相同的加载时间问题。在烧瓶应用程序本身中,我有以下内容:
但它似乎每隔几个小时就重新下载一次模型......我怎样才能避免让应用程序重新下载模型和那些想尝试它的人冻结应用程序?
python - tokenizer.max len 在这个类定义中做了什么?
我正在关注在这里找到的 Rostylav 的教程,但遇到了一个我不太明白的错误:
这是我认为导致错误的类,但是我无法理解 Tokenize.max_len 应该做什么,所以我可以尝试修复它:
感谢您的阅读!
tensorflow - Huggingface GPT 变压器层输出
我正在尝试使用 GPT 语言模型并获取它在文本生成的最后状态中分配给每个单词的权重。我的模型是来自变形金刚库的 GPT2。以下是我如何称呼预训练模型:
我的目标是使用来自该模型最后一层的信息(一个在 softmax 激活后具有词汇长度的矩阵)并将其与另一个模型结合使用。
我正在尝试在 TensorFlowPlease 中执行此操作,但如果您认为在 PyTorch 中有更简单、更方便的方法,请分享您的评论。