问题标签 [roberta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 Huggingface 从头开始训练语言模型时的问题
我正在按照这里的指南(https://github.com/huggingface/blog/blob/master/how-to-train.md,https://huggingface.co/blog/how-to-train)进行训练从头开始的类似 RoBERTa 的模型。(使用我自己的标记器和数据集)
但是,当我运行run_mlm.py ( https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py ) 以使用掩蔽任务训练我的模型时,会出现以下消息:
我想知道这是否意味着我正在使用RoBERTa 的“预训练重量”从头开始训练?如果是从预训练的权重进行训练,有没有办法使用随机启动的权重而不是预训练的权重?
==== 2021/10/26 更新 ===
我正在通过以下命令使用 Masked Language Modeling 任务训练模型:
./my_dir/ 包含三个文件:
config.json由以下代码生成:
这是内容:
vocab.json、merges.tx t 产生的代码如下:
这里是vocab.json的内容(比例)
这是merges.txt的内容(比例)
python - 是否可以从 512 增加 RoBERTa 中的令牌限制?
所以我尝试用 EmoRoBERTA 进行情绪分类,但是,我的数据中的一些字符串超过了 512 个标记的限制。有没有办法增加这个限制?我在某处读到有关设置max_length = 1024
但不确定这是否有效?
我正在使用这个库 -
text-classification - 罗伯塔在文本分类方面应该比 BERT 好得多吗?
我有一个二进制 TC 问题,大约有 10k 个短样本,并且类比平衡。我正在使用预训练的BERT和Roberta进行分类。使用 Roberta,我得到的结果比 BERT 好 20%,在相同的数据集、超参数、种子中几乎完美的 0.99 准确度。这对我来说感觉很奇怪。我确信我有一个适当的训练/开发/测试拆分,没有一个样本在拆分中重复。
RoBERTa 是在做一些 BERT 没有做的事情,比如对最终预测设置阈值,还是只是更好的模型?会不会是技术问题,例如某些缓存将开发/训练数据泄漏到罗伯塔训练过程中?
cpu - 以最小延迟量化用于 cpu 的 Bert 问答模型
我们如何训练 Roberta 的量化感知训练基础模型?量化模型在 CPU 上的延迟是否最小?我们如何在生产环境中使用 BERT 模型进行问答。
tokenize - 尝试使用 huggingface 预训练的 Tokenizer (roberta-base) 时出现错误消息
我对此很陌生,所以我可能完全遗漏了一些东西,但这是我的问题:我正在尝试创建一个使用 Huggingface 的预训练标记器模型的 Tokenizer 类。然后我想在更大的变压器模型中使用这个类来标记我的输入数据。下面是类代码类 Roberta(MyTokenizer):
当我在我的 Transformer 模型中调用函数 tokenize_and_filter 时,如下所示
我尝试打印标记化的数据,我收到以下消息:
似乎该函数返回一个方法而不是列表或张量 - 我尝试传递参数'return_tensors='tf'',我尝试使用 tokenizer.encode() 方法,我尝试使用 AutoTokenizer 和使用 RobertaTokenizer,我尝试了 batch_encode_plus() 方法,似乎没有任何效果。
请帮忙!
python-3.x - 为 RobertaForSequenceClassification 加载 state_dict 时出错
我正在使用经过微调的 Roberta 模型,该模型是在 Jigsaw Data 上训练的无偏毒罗伯塔:
https://huggingface.co/unitary/unbiased-toxic-roberta
它在 16 个类上进行了微调。
我正在编写用于二进制分类的代码:
将二进制标签上的损失计算为准确性的指标
)
当我运行它时,我得到一个错误:
如何添加线性层并解决此错误?
python - NER 分类 Deberta Tokenizer 错误:您需要实例化 DebertaTokenizerFast
我正在尝试使用 Deberta 执行 NER 分类任务,但我遇到了 Tokenizer 错误。这是我的代码(我的输入句子必须用“,:”逐字分割:):
我有这个结果:
然后我继续,但我有这个错误:
而且我认为原因是我需要以以下格式获得令牌的结果(这是不可能的,因为我的句子被“,”分割:
所以我尝试了这两种方式,但我很累,不知道该怎么做。关于 Deberta 的在线文档很少。
并且错误仍然相同。太感谢了 !
python - 我如何在火炬训练时保存模型
我正在为一种新语言训练 RoBERTa 模型,训练数据需要几个小时。所以我认为在训练时保存模型是个好主意,这样我就可以从下次停止的地方继续训练模型。
我正在使用火炬库和谷歌 Colab GPU 来训练模型。
这是我的 colab 文件。 https://colab.research.google.com/drive/1jOYCaLdxYRwGMqMciG6c3yPYZAsZRySZ?usp=sharing