问题标签 [roberta]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
359 浏览

python - 使用 Huggingface 从头开始​​训练语言模型时的问题

我正在按照这里的指南(https://github.com/huggingface/blog/blob/master/how-to-train.mdhttps://huggingface.co/blog/how-to-train)进行训练从头开始的类似 RoBERTa 的模型。(使用我自己的标记器和数据集)

但是,当我运行run_mlm.py ( https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py ) 以使用掩蔽任务训练我的模型时,会出现以下消息:

我想知道这是否意味着我正在使用RoBERTa 的“预训练重量”从头开始训练?如果是从预训练的权重进行训练,有没有办法使用随机启动的权重而不是预训练的权重?

==== 2021/10/26 更新 ===

我正在通过以下命令使用 Masked Language Modeling 任务训练模型:

./my_dir/ 包含三个文件:

config.json由以下代码生成:

这是内容:

vocab.json、merges.tx t 产生的代码如下:

这里是vocab.json的内容(比例)

这是merges.txt的内容(比例)

0 投票
0 回答
84 浏览

python - 是否可以从 512 增加 RoBERTa 中的令牌限制?

所以我尝试用 EmoRoBERTA 进行情绪分类,但是,我的数据中的一些字符串超过了 512 个标记的限制。有没有办法增加这个限制?我在某处读到有关设置max_length = 1024但不确定这是否有效?

我正在使用这个库 -

0 投票
0 回答
80 浏览

text-classification - 罗伯塔在文本分类方面应该比 BERT 好得多吗?

我有一个二进制 TC 问题,大约有 10k 个短样本,并且类比平衡。我正在使用预训练的BERTRoberta进行分类。使用 Roberta,我得到的结果比 BERT 好 20%,在相同的数据集、超参数、种子中几乎完美的 0.99 准确度。这对我来说感觉很奇怪。我确信我有一个适当的训练/开发/测试拆分,没有一个样本在拆分中重复。

RoBERTa 是在做一些 BERT 没有做的事情,比如对最终预测设置阈值,还是只是更好的模型?会不会是技术问题,例如某些缓存将开发/训练数据泄漏到罗伯塔训练过程中?

0 投票
0 回答
10 浏览

cpu - 以最小延迟量化用于 cpu 的 Bert 问答模型

我们如何训练 Roberta 的量化感知训练基础模型?量化模型在 CPU 上的延迟是否最小?我们如何在生产环境中使用 BERT 模型进行问答。

0 投票
1 回答
51 浏览

tokenize - 尝试使用 huggingface 预训练的 Tokenizer (roberta-base) 时出现错误消息

我对此很陌生,所以我可能完全遗漏了一些东西,但这是我的问题:我正在尝试创建一个使用 Huggingface 的预训练标记器模型的 Tokenizer 类。然后我想在更大的变压器模型中使用这个类来标记我的输入数据。下面是类代码类 Roberta(MyTokenizer):

当我在我的 Transformer 模型中调用函数 tokenize_and_filter 时,如下所示

我尝试打印标记化的数据,我收到以下消息:

似乎该函数返回一个方法而不是列表或张量 - 我尝试传递参数'return_tensors='tf'',我尝试使用 tokenizer.encode() 方法,我尝试使用 AutoTokenizer 和使用 RobertaTokenizer,我尝试了 batch_encode_plus() 方法,似乎没有任何效果。

请帮忙!

0 投票
1 回答
32 浏览

python-3.x - 为 RobertaForSequenceClassification 加载 state_dict 时出错

我正在使用经过微调的 Roberta 模型,该模型是在 Jigsaw Data 上训练的无偏毒罗伯塔:

https://huggingface.co/unitary/unbiased-toxic-roberta

它在 16 个类上进行了微调。

我正在编写用于二进制分类的代码:

将二进制标签上的损失计算为准确性的指标

)

当我运行它时,我得到一个错误:

如何添加线性层并解决此错误?

0 投票
1 回答
48 浏览

python - NER 分类 Deberta Tokenizer 错误:您需要实例化 DebertaTokenizerFast

我正在尝试使用 Deberta 执行 NER 分类任务,但我遇到了 Tokenizer 错误。这是我的代码(我的输入句子必须用“,:”逐字分割:):

我有这个结果:

然后我继续,但我有这个错误:

而且我认为原因是我需要以以下格式获得令牌的结果(这是不可能的,因为我的句子被“,”分割:

所以我尝试了这两种方式,但我很累,不知道该怎么做。关于 Deberta 的在线文档很少。

并且错误仍然相同。太感谢了 !

0 投票
1 回答
32 浏览

python - 我如何在火炬训练时保存模型

我正在为一种新语言训练 RoBERTa 模型,训练数据需要几个小时。所以我认为在训练时保存模型是个好主意,这样我就可以从下次停止的地方继续训练模型。

我正在使用火炬库和谷歌 Colab GPU 来训练模型。

这是我的 colab 文件。 https://colab.research.google.com/drive/1jOYCaLdxYRwGMqMciG6c3yPYZAsZRySZ?usp=sharing