问题标签 [gpt-2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 评估 GPT-2 生成的句子结尾
在我的程序中,我选取了一个句子的开头部分(例如,“地形图主要关注”)并使用 GPT-2 生成一个句子的潜在结尾列表。我如何评估生成输出的这两个因素(使用 Python):生成的结尾是否与开头在语义上相关,以及整个句子(开头+结尾)是否流畅自然。
谢谢!
tensorflow - 尝试在 TensorFlow 中微调 GPT-2 模型时出现 ValueError
ValueError
在尝试微调Hugging Face 的 GPT-2 模型分布时,我在我的 Python 代码中遇到了。具体来说:
我有大约 100 个文本文件,我将它们连接成一个名为的字符串变量raw_text
,然后传递给以下函数以创建训练和测试 TensorFlow 数据集:
然后我尝试训练我的模型,调用train_model(*to_datasets(raw_text))
:
调用ValueError
时触发。model.fit()
全部大写的变量是从 JSON 文件中提取的设置。目前,它们设置为:
任何有关此错误含义的信息或有关如何解决它的想法将不胜感激。谢谢!
python - 有没有办法使用 Twint 在 csv 文件中只存储一个 tweets 列?
我按照本教程开发了一个 Twitter GPT-2 机器人,但是抓取推文的方法已经过时了。
所以我开始使用 Twint 作为替代,我想问一下是否可以将用户的推文存储在单列 csv 文件中?我必须在命令行中设置什么参数?twint 是否能够在抓取时忽略主题标签和提及(@users),如果是这样,我必须设置为 false 才能发生这种情况?我在 wiki 中看到了 {mentions} 和 {hashtag} 参数。谢谢!
或者是否有一种正则表达式方法可以在 csv 文件中删除 @、# 和附加到它们的单词?
nlp - 我正在寻找带有某些标记的预训练语言模型
是否有任何预训练的自然语言模型使用具有 [unk]、[pad]、[bos]、[eos]、[sep] 标记的数据进行训练?
我在拥抱脸网页(python 中的转换器模块)中寻找了一些预训练模型,并发现了几个可以使用“gpt2”或“bart”等保护数据进行训练的模块。在查看这些模型的代码(配置文件)时,省略了诸如 [pad]、[sep] 之类的标记(尤其是 [sep])。
如果可以处理自然语言,任何预训练模型都可以。
python - colab中断训练时gpt2模型数据不保存
我使用 google colab 进行 gpt 训练。我告诉它将检查点保存到我的谷歌驱动器文件夹中:
所以我的假设是,当 colab 中断会话时,我将能够加载检查点并从中生成一些文本:
但我得到一个例外,即实际模型不存在:
它确实不存在,也不在垃圾箱中:
当 colab 中断会话时,我可以做些什么来避免丢失我的训练进度?
python - GPT-2 Google Colab IndexError:列表索引超出范围
我正在使用这个 google colab 笔记本https://colab.research.google.com/drive/1qxcQ2A1nNjFudAGN_mcMOnvV9sF_PkEb#scrollTo=aeXshJM-Cuaf来尝试生成文本。当我跑
我收到此错误:
pytorch - 如何在使用 ONNX 推理会话时通过传递“标签”来获得语言建模损失?
使用 GPT2 时,我们可以简单地传递 'labels' 参数来获得损失,如下所示:
但是,无法找出如何在 ONNX 推理会话中获得相同的损失。我正在使用下面的代码,它只返回“last_hidden_state”:
huggingface-transformers - 有谁知道如何在 huggingface gpt2 中输入文本内容?
我想输入对话数据作为来自拥抱脸变压器的 gpt2 模型的输入。
====示例====
A:你是在哪里认识大卫的?
B:我在中央公园遇见了他。
A:那天他不是很奇怪吗?
=> 预测 B:完全没有,为什么?
================
和上面的例子一样,我想向转换器输入一些对话数据,并从预训练模型(gpt2)获得回复。谁能告诉我怎么做?
artificial-intelligence - 用于视频脚本生成的 GPT-NEO 培训
我最近对 AI 产生了兴趣,我想通过 youtuber 给我的一些脚本来训练 GPT-NEO。我找到了这个关于制作数据集的视频,但他使用的是短引号,我很困惑我应该将 <|endoftext|> 放在哪里来放置我的长脚本。我应该在每个段落之后将它们与视频标题分组还是在脚本末尾进行分组,然后继续下一个脚本?