问题标签 [roberta-language-model]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 运行“config = RobertaConfig.from_pretrained(“/Absolute-path-to/BERTweet_base_transformers/config.json”)时出错
我正在尝试运行此代码的代码“转换器”版本以使用新的预训练 BERTweet 模型,但出现错误。
以下代码行在我的 Google Colab 笔记本中成功运行:
然后我尝试运行以下代码:
...并显示错误:
我猜问题是我需要用其他东西替换“/Absolute-path-to”,但如果是这样的话,应该用什么替换?这可能是一个非常简单的答案,我觉得问起来很愚蠢,但我需要帮助。
huggingface-transformers - 在数据集大于 RAM 容量的情况下从头开始训练 RoBERTa?
我有一个 16 GB 的语料库,我的 ram 大约 16 GB。如果我加载整个数据集以从头开始训练语言模型 RoBERTa,我将遇到内存问题。我打算使用 Huggingface 在他们的博客文章中的教程中提供的脚本训练我的 RoBERTa:https ://colab.research.google.com/github/huggingface/blog/blob/master/notebooks/01_how_to_train.ipynb
但是,他们的博客文章建议使用 LineByLineTextDatase。但是,这会急切地加载数据集。
出乎意料的是,我的内核在他们读取行的部分崩溃了。我想知道是否有办法让它懒惰地阅读。如果建议的答案可以通过发布的教程创建最少的代码更改,那将是非常可取的,因为我对 Huggingface 相当陌生,并且担心我无法自己调试它。
logging - 在拥抱脸/变形金刚中训练 RoBERTa 时如何检查损失?
我从头开始训练了一个 RoBERTa 模型transformers
,但我无法在训练期间检查训练损失
在 notebook 中,每 500 步打印一次损失,但在训练期间没有记录训练损失:
没有为损失打印任何值,所以我不知道训练是否收敛得很好。如何监控训练期间的损失?
pytorch - colab : 模型 = torch.hub.load('pytorch/fairseq', 'roberta.large') 错误
我尝试了下面的代码。
我得到了下面的错误。
我已经在 Colab 教程中搜索了 RoBERTa,但是,它也不起作用。
有人有存档问题吗?或对此有任何解决方案?
pytorch - 使用 PyTorch 在 Cloud TPU 上训练 FairSeq RoBERTa 时,RPC 失败,状态 =“不可用:套接字已关闭”错误
我按照教程“使用 Pytorch 在 Cloud TPU 上预训练 FairSeq RoBERTa ”来设置 Preemptible (v2-8) TPU 环境并训练我的 RoBERTa 模型。PyTorch env 按照文档的说明基于 torch-xla-1.6。但是,它不会像往常一样在 GPU 中输出任何训练日志,并且会在 2-3 天(间隔 12 小时)内两次抛出 RPC 失败警告(见下文 - 网络端点已在此处删除)。
我每个 epoch 的训练步数是 161,529。根据文档,按照我的配置,v2-8 将花费 80 小时进行 5 个 epoch。但是,我的工作似乎悬而未决。
请问有什么建议吗?
transformer - XLM-RoBERTa 令牌 - id 关系
我使用 XLM-RoBERTa 分词器来获取一堆句子的 ID,例如:
我看到返回的 ID 并不总是与我的句子中以空格分隔的标记的数量一样多:例如,第一句对应于[[0, 459, 6496, 83, 6782, 2]]
,和。从 ID 中获取词嵌入的矩阵后,我试图仅识别与某些特定标记相对应的词嵌入/向量:有没有办法做到这一点?如果原始令牌有时被分配了多个 ID,并且无法预测,我看不出这是怎么可能的。loving
456
6496
更一般地说,我的任务是获取句子中某些特定标记的词嵌入:因此,我的目标是首先使用句子,以便可以在句法上下文中计算单个标记的词嵌入,但随后我想确定/只保留一些特定标记的向量,而不是句子中所有标记的向量。
pytorch - 什么使 BertGeneration 和/或 RobertaForCausalLM 因果模型?因果注意掩蔽发生在哪里?
我正在尝试使用 RobertaForCausalLM 和/或 BertGeneration 进行因果语言建模/下一个词预测/从左到右的预测。我似乎无法弄清楚因果掩盖发生在哪里?我想用真实标签训练教师强迫,但没有来自未来令牌的信息包含在注意机制中。为此,我认为该模型需要因果注意屏蔽,但我认为它没有应用于任何地方......
如果有人能指出这可能发生在哪里或为什么没有必要,那将很有帮助。
谢谢!
python - 加载所有权重的 Roberta 模型
我通过 TFRobertaModel.frompretrained('Roberta-base') 加载 Roberta 模型并使用 Keras 对其进行训练。我在罗伯塔之上还有其他层,我需要用所有参数初始化裸罗伯塔。我在 Colab 上运行我的代码,自从加载 Roberta 几周后,我曾经收到以下警告,但仍然一切正常,模型训练正常,尽管“lm_head”权重没有初始化:
但是现在,我认为 colab 上的转换器版本已经更改,因为我收到了使用相同代码的新警告,表明更多的编码器和偏置层没有初始化,这导致损失函数没有减少:
谁能帮我解决我的问题:我如何加载 Roberta 并正确初始化它的所有权重?
azure - 在 Azure 机器学习服务 Nvidia Compute 中导入 sentence_transformers 时出现分段错误错误
我想在 AML 中使用 sentence_transformers 来运行 XLM-Roberta 模型以进行句子嵌入。我有一个脚本,我在其中导入 sentence_transformers:
运行 AML 管道后,此脚本的运行将失败,并出现以下错误:
我很确定这个导入会导致这个错误,因为如果我注释掉这个导入,脚本的其余部分就会运行。这很奇怪,因为 sentence_transformers 的安装成功了。
这是我的计算的详细信息:
代理池:
代理规格:
requirements.txt 文件:
有没有人有这个错误的解决方案?
nlp - 使用 FastAPI 为 roberta ClassificationModel 提供服务的 API
我在 colab 上使用 simpletransformers 模型训练了变压器,下载了序列化模型,我在使用它进行推理方面几乎没有问题。在 jupyter 上的模型上加载模型是可行的,但是在将它与 fastapi 一起使用时会出现错误这就是我在 jupyter 上使用它的方式:
它给出以下结果:array([[0.00230123, 0.97465035, 0.00475409, 0.01829433]])
我尝试按如下方式使用 fastapi,但不断出现错误: