问题标签 [fine-tune]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - SQL查询中的多个OR条件
下面的查询需要更长的时间来执行,因为表有超过 50M 的记录,而且查询中的 OR 条件似乎不正确......谁能为我的查询提供优化版本。欣赏..!!
bert-language-model - 编码/标记数据集字典(BERT/Huggingface)
我正在尝试微调我的情绪分析模型。因此,我将我的 pandas 数据框(评论列,情绪得分列)拆分为训练和测试数据框,并将所有内容转换为数据集字典:
我正在将所有内容转换为数据集字典,因为我或多或少地遵循代码并将其转移到我的问题中。无论如何,我正在定义要标记的函数:
并使用以下方法调用该函数:
在这一切之后我收到了这个错误:
我错过了什么?抱歉,我对整个 Huggingface 基础设施完全陌生……</p>
machine-learning - 单 GPU 上的 Transformer 模型微调
在 GPU 需求和 GPU 内存使用方面,与从头开始训练变压器(BERT、GPT-2)相比,微调预训练的变压器模型是更容易的模型吗?
为了进一步澄清,我已经阅读了如何训练大多数变压器模型,其中一个需要多 GPU 训练。但是,是否可以在单 GPU 上微调其中一些模型?为什么会这样?
是不是因为我们可以用更小的batch,微调的时间不如从头训练多?
nlp - 如何微调“distiluse-base-multilingual-cases”模型以进行文本相似度定制
我正在尝试进行语义搜索,但预训练模型在意大利杂货数据上并不准确。
例如。
在上面的例子中,问题是预训练的 BERT 模型没有返回上下文相似度。结果应按以下顺序排列。
预期结果:
微调尝试:
python - 使用 Gensim Word2Vec 模型的权重作为另一个模型的起点
我有两个来自同一领域的语料库,但有时间变化,比如十年。我想在它们上训练 Word2vec 模型,然后研究影响语义转变的不同因素。
我想知道如何使用第一个模型的嵌入初始化第二个模型,以尽可能避免共现估计中方差的影响。
python - 语义搜索微调
例如。句子余弦相似度的预训练 BERT 结果
在上面的示例中,我正在搜索牛奶,结果应该首先与牛奶相关,但在这里它首先返回巧克力。如何微调结果的相似性?
我用谷歌搜索了它,但没有找到任何合适的解决方案,请帮助我。
代码:
amazon-web-services - 微调 Amazon Comprehent 的情绪分析
我有一个非常简短的问题:是否可以微调 Amazon Comprehend Sentiment Analyzer?我在互联网上找不到任何东西,但不知何故感觉很奇怪,这是不可能的。
干杯
huggingface-transformers - 如何用拥抱脸从头开始训练一个伯特模型?
我在这个问题中找到了从头开始训练模型的答案: 如何在 MLM 和 NSP 的新域上从头开始训练 BERT?
一个答案像这样使用 Trainer 和 TrainingArguments:
但是 huggingface 官方文档Fine-tuning a pretrained model 也使用 Trainer 和 TrainingArguments 以同样的方式进行微调。所以当我使用 Trainer 和 TrainingArguments 训练模型时,我是从头开始训练模型还是只是微调?
python - 使用 HuggingFace 在训练前任务上微调 mBART
我想facebook/mbart-large-cc25
使用预训练任务对我的数据进行微调,特别是掩蔽语言建模 (MLM)。
我怎样才能在 HuggingFace 中做到这一点?
编辑:为了清楚起见重写了问题
nlp - NeMo Conformer-CTC 在微调时重复预测同一个词
我在 LibriSpeech 数据集上使用 NeMo Conformer-CTC small(干净的子集,大约 29K 输入,90% 用于训练,10% 用于测试)。我使用 Pytorch 闪电。
当我尝试训练时,该模型在 50 个 epoch 中学习了 1 或 2 个句子,然后卡在了 60 个左右的损失中(我也训练了 200 个 epoch 并且它没有让步)。但是,当我尝试使用工具包中的预训练模型对其进行微调时,它会在 Validation Sanity Check 上正确预测,然后当它开始训练时,它会重复预测相同的词或几个词,并且损失不断增加,直到达到 3e +07 变成 nan。
更改学习率并使用另一个数据集(VCTK)后,我得到了相同的结果。我尝试对另一个模型(quartznet)做同样的事情,它工作得很好。
有人知道会发生什么吗?
谢谢!