问题标签 [roberta-language-model]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1134 浏览

nlp - 运行“config = RobertaConfig.from_pretrained(“/Absolute-path-to/BERTweet_base_transformers/config.json”)时出错

我正在尝试运行此代码的代码“转换器”版本使用新的预训练 BERTweet 模型,但出现错误。

以下代码行在我的 Google Colab 笔记本中成功运行:

然后我尝试运行以下代码:

...并显示错误:

我猜问题是我需要用其他东西替换“/Absolute-path-to”,但如果是这样的话,应该用什么替换?这可能是一个非常简单的答案,我觉得问起来很愚蠢,但我需要帮助。

0 投票
1 回答
589 浏览

huggingface-transformers - 在数据集大于 RAM 容量的情况下从头开始训练 RoBERTa?

我有一个 16 GB 的语料库,我的 ram 大约 16 GB。如果我加载整个数据集以从头开始训练语言模型 RoBERTa,我将遇到内存问题。我打算使用 Huggingface 在他们的博客文章中的教程中提供的脚本训练我的 RoBERTa:https ://colab.research.google.com/github/huggingface/blog/blob/master/notebooks/01_how_to_train.ipynb

但是,他们的博客文章建议使用 LineByLineTextDatase。但是,这会急切地加载数据集。

出乎意料的是,我的内核在他们读取行的部分崩溃了。我想知道是否有办法让它懒惰地阅读。如果建议的答案可以通过发布的教程创建最少的代码更改,那将是非常可取的,因为我对 Huggingface 相当陌生,并且担心我无法自己调试它。

0 投票
1 回答
1316 浏览

logging - 在拥抱脸/变形金刚中训练 RoBERTa 时如何检查损失?

我从头开始训练了一个 RoBERTa 模型transformers,但我无法在训练期间检查训练损失

https://colab.research.google.com/github/huggingface/blog/blob/master/notebooks/01_how_to_train.ipynb

在 notebook 中,每 500 步打印一次损失,但在训练期间没有记录训练损失:

没有为损失打印任何值,所以我不知道训练是否收敛得很好。如何监控训练期间的损失?

0 投票
0 回答
327 浏览

pytorch - colab : 模型 = torch.hub.load('pytorch/fairseq', 'roberta.large') 错误

我尝试了下面的代码。

我得到了下面的错误。

在此处输入图像描述

我已经在 Colab 教程中搜索了 RoBERTa,但是,它也不起作用。

https://colab.research.google.com/github/pytorch/pytorch.github.io/blob/master/assets/hub/pytorch_fairseq_roberta.ipynb

有人有存档问题吗?或对此有任何解决方案?

0 投票
1 回答
457 浏览

pytorch - 使用 PyTorch 在 Cloud TPU 上训练 FairSeq RoBERTa 时,RPC 失败,状态 =“不可用:套接字已关闭”错误

我按照教程“使用 Pytorch 在 Cloud TPU 上预训练 FairSeq RoBERTa ”来设置 Preemptible (v2-8) TPU 环境并训练我的 RoBERTa 模型。PyTorch env 按照文档的说明基于 torch-xla-1.6。但是,它不会像往常一样在 GPU 中输出任何训练日志,并且会在 2-3 天(间隔 12 小时)内两次抛出 RPC 失败警告(见下文 - 网络端点已在此处删除)。

我每个 epoch 的训练步数是 161,529。根据文档,按照我的配置,v2-8 将花费 80 小时进行 5 个 epoch。但是,我的工作似乎悬而未决。

请问有什么建议吗?

0 投票
1 回答
491 浏览

transformer - XLM-RoBERTa 令牌 - id 关系

我使用 XLM-RoBERTa 分词器来获取一堆句子的 ID,例如:

我看到返回的 ID 并不总是与我的句子中以空格分隔的标记的数量一样多:例如,第一句对应于[[0, 459, 6496, 83, 6782, 2]],和。从 ID 中获取词嵌入的矩阵后,我试图仅识别与某些特定标记相对应的词嵌入/向量:有没有办法做到这一点?如果原始令牌有时被分配了多个 ID,并且无法预测,我看不出这是怎么可能的。loving4566496

更一般地说,我的任务是获取句子中某些特定标记的词嵌入:因此,我的目标是首先使用句子,以便可以在句法上下文中计算单个标记的词嵌入,但随后我想确定/只保留一些特定标记的向量,而不是句子中所有标记的向量。

0 投票
1 回答
258 浏览

pytorch - 什么使 BertGeneration 和/或 RobertaForCausalLM 因果模型?因果注意掩蔽发生在哪里?

我正在尝试使用 RobertaForCausalLM 和/或 BertGeneration 进行因果语言建模/下一个词预测/从左到右的预测。我似乎无法弄清楚因果掩盖发生在哪里?我想用真实标签训练教师强迫,但没有来自未来令牌的信息包含在注意机制中。为此,我认为该模型需要因果注意屏蔽,但我认为它没有应用于任何地方......

如果有人能指出这可能发生在哪里或为什么没有必要,那将很有帮助。

谢谢!

0 投票
0 回答
409 浏览

python - 加载所有权重的 Roberta 模型

我通过 TFRobertaModel.frompretrained('Roberta-base') 加载 Roberta 模型并使用 Keras 对其进行训练。我在罗伯塔之上还有其他层,我需要用所有参数初始化裸罗伯塔。我在 Colab 上运行我的代码,自从加载 Roberta 几周后,我曾经收到以下警告,但仍然一切正常,模型训练正常,尽管“lm_head”权重没有初始化:

但是现在,我认为 colab 上的转换器版本已经更改,因为我收到了使用相同代码的新警告,表明更多的编码器和偏置层没有初始化,这导致损失函数没有减少:

谁能帮我解决我的问题:我如何加载 Roberta 并正确初始化它的所有权重?

0 投票
1 回答
375 浏览

azure - 在 Azure 机器学习服务 Nvidia Compute 中导入 sentence_transformers 时出现分段错误错误

我想在 AML 中使用 sentence_transformers 来运行 XLM-Roberta 模型以进行句子嵌入。我有一个脚本,我在其中导入 sentence_transformers:

运行 AML 管道后,此脚本的运行将失败,并出现以下错误:

我很确定这个导入会导致这个错误,因为如果我注释掉这个导入,脚本的其余部分就会运行。这很奇怪,因为 sentence_transformers 的安装成功了。

这是我的计算的详细信息:

代理池:

代理规格:

requirements.txt 文件:

有没有人有这个错误的解决方案?

0 投票
2 回答
68 浏览

nlp - 使用 FastAPI 为 roberta ClassificationModel 提供服务的 API

我在 colab 上使用 simpletransformers 模型训练了变压器,下载了序列化模型,我在使用它进行推理方面几乎没有问题。在 jupyter 上的模型上加载模型是可行的,但是在将它与 fastapi 一起使用时会出现错误这就是我在 jupyter 上使用它的方式:

它给出以下结果:array([[0.00230123, 0.97465035, 0.00475409, 0.01829433]])

我尝试按如下方式使用 fastapi,但不断出现错误: