问题标签 [huggingface-transformers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5076 浏览

python - 输出对带有拥抱脸/变形金刚(火炬)的 bert-base-uncased 的关注

我正在关注一篇关于基于 BERT 的词法替换的论文(特别是尝试实现等式(2)——如果有人已经实现了整篇论文,那也很棒)。因此,我想同时获得最后的隐藏层(我唯一不确定的是输出中层的顺序:最后一个还是第一个?)以及来自基本 BERT 模型(bert-base-uncased)的注意力。

但是,我有点不确定huggingface/transformers 库是否真的为 bert-base-uncased 输出了注意力(我使用的是 Torch,但我愿意使用 TF 代替)?

我读过的内容来看,我应该得到一个 (logits, hidden_​​states, attentions) 的元组,但是在下面的示例中(例如在 Google Colab 中运行),我得到的长度为 2。

我是否误解了我所得到的或以错误的方式解决这个问题?我做了明显的测试并使用output_attention=False而不是output_attention=True(虽然output_hidden_states=True确实似乎添加了隐藏状态,正如预期的那样)并且我得到的输出没有任何变化。这显然是我对图书馆理解的一个不好的迹象,或者表明存在问题。

解释最终受接受答案启发的工作

0 投票
1 回答
1089 浏览

python-3.x - 在运行 huggingface gpt2-xl 模型嵌入索引超出范围时

我正在尝试运行hugginface gpt2-xl 模型。我从加载小型 gpt2 模型并通过以下代码生成文本的快速入门页面运行代码:

这是完美的运行。然后我尝试运行gpt2-xl模型。我更改tokenizermodel加载如下代码: tokenizer = GPT2Tokenizer.from_pretrained("gpt2-xl") model = GPT2LMHeadModel.from_pretrained('gpt2-xl')

tokenizer加载model完美。但我在以下行出现错误:

错误是:

查看错误似乎嵌入大小不正确。所以我写了以下行来专门获取配置文件gpt2-xl

但是,在这里vocab_size:50257 ,我通过以下方式明确更改了值:

然后打印出来后config,我可以看到上一行在配置中生效了。但是,我仍然遇到同样的错误。

0 投票
1 回答
669 浏览

question-answering - BERT 在 SQuAD 的 QA 答案中出现的特殊字符是什么意思?

我正在运行一个微调的 BERT 和 ALBERT 模型来进行问答。而且,我正在评估这些模型在SQuAD v2.0的一部分问题上的表现。我使用SQuAD 的官方评估脚本进行评估。

我使用 Huggingface transformers,在下面您可以找到我正在运行的实际代码和示例(可能对一些尝试在 SQuAD v2.0 上运行 ALBERT 微调模型的人也有帮助):

输出如下:

如您所见,答案中有 BERT 的特殊标记,包括[CLS][SEP]

我知道在答案只是[CLS](有两个tensor(0)forstart_scoresend_scores)的情况下,这基本上意味着模型认为在上下文中没有对问题的答案是有意义的。在这些情况下,我只是在运行评估脚本时将该问题的答案设置为空字符串。

我想知道在上面的例子中,我是否应该再次假设模型找不到答案并将答案设置为空字符串?或者我应该在评估模型性能时留下这样的答案?

我问这个问题是因为据我了解,如果我有这样的案例作为答案,使用评估脚本计算的性能可能会发生变化(如果我错了,请纠正我)并且我可能无法真正了解这些模型。

0 投票
1 回答
520 浏览

language-model - 使用领域文本预训练 BERT/RoBERTa 语言模型,估计需要多长时间?哪个更快?

我想使用域语料库(与情感相关的文本)对 BERT 和 RoBERTa MLM 进行预训练。使用 50k~100k 个单词需要多长时间。由于 RoBERTa 没有接受过预测下一个句子目标的训练,比 BERT 少一个训练目标,并且具有更大的小批量和学习率,我认为 RoBERTa 会快得多?

0 投票
1 回答
2149 浏览

python - 使用 Google Colab 的免费 G​​PU 使用 CTRL 生成文本的 HuggingFace 变形金刚

在使用它进行微调之前,我想使用 PyTorch-Transformers 使用 CTRL 测试 TextGeneration。但它不会像 GPT-2 和其他类似的语言生成模型那样提示任何东西。我对此很陌生,并且被卡住了,无法弄清楚发生了什么。

这是我在 Colab 笔记本中遵循的程序,

这就是我运行脚本后得到的

然后终止。这可能是因为 GPU 问题吗?

任何形式的帮助表示赞赏。

0 投票
1 回答
370 浏览

pytorch - 使用 Python Pytorch 进行 Transformers 总结 - 如何获得更长的输出?

我使用来自https://github.com/huggingface/transformers/tree/master/examples/summarization的人工智能摘要——最先进的结果。

我应该自己训练它以获得比原始拥抱脸 github 训练脚本中使用的时间更长的摘要输出吗?

当我做推理时

我得到了 200 个标记的良好输出,但其余文本是

0 投票
1 回答
1092 浏览

python - 如何在 Bert 序列分类中使用大于零的批量大小

Hugging Face 文档描述了如何使用 Bert 模型进行序列分类:

但是,只有批量大小 1 的示例。当我们有一个短语列表并想要使用更大的批量大小时,如何实现它?

0 投票
1 回答
447 浏览

pytorch - GPT2-XL预训练模型的训练数据大小

拥抱脸转换器中,可以使用预训练的 GPT2-XL 语言模型。但我没有找到,它是在哪个数据集上训练的?它与 OpenAI 用于他们论文的训练模型相同吗(在 40GB 数据集上训练webtext)?

0 投票
0 回答
3073 浏览

huggingface-transformers - 来自 pytorch_transformers ModuleNotFoundError:没有名为“utils”的模块

在安装 Anaconda 并激活它后,在 Colab 环境中使用 pytorch_transformers 时遇到此错误。我在https://github.com/huggingface/transformers/issues/1705中发现了一个类似的问题,但它对我不起作用。谢谢你的帮助!

0 投票
2 回答
1183 浏览

gpu - 如何在训练过程中检查 CUDA 内存不足问题的根本原因?

我正在拥抱 roberta language_modeling.py。完成 400 步后,我突然遇到 CUDA 内存不足的问题。不知道怎么处理。你能帮忙吗?谢谢