问题标签 [fine-tune]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
20 浏览

sql - SQL查询中的多个OR条件

下面的查询需要更长的时间来执行,因为表有超过 50M 的记录,而且查询中的 OR 条件似乎不正确......谁能为我的查询提供优化版本。欣赏..!!

0 投票
1 回答
365 浏览

bert-language-model - 编码/标记数据集字典(BERT/Huggingface)

我正在尝试微调我的情绪分析模型。因此,我将我的 pandas 数据框(评论列,情绪得分列)拆分为训练和测试数据框,并将所有内容转换为数据集字典:

我正在将所有内容转换为数据集字典,因为我或多或少地遵循代码并将其转移到我的问题中。无论如何,我正在定义要标记的函数:

并使用以下方法调用该函数:

在这一切之后我收到了这个错误:

我错过了什么?抱歉,我对整个 Huggingface 基础设施完全陌生……</p>

0 投票
1 回答
240 浏览

machine-learning - 单 GPU 上的 Transformer 模型微调

在 GPU 需求和 GPU 内存使用方面,与从头开始训练变压器(BERT、GPT-2)相比,微调预训练的变压器模型是更容易的模型吗?

为了进一步澄清,我已经阅读了如何训练大多数变压器模型,其中一个需要多 GPU 训练。但是,是否可以在单 GPU 上微调其中一些模型?为什么会这样?

是不是因为我们可以用更小的batch,微调的时间不如从头训练多?

0 投票
0 回答
212 浏览

nlp - 如何微调“distiluse-base-multilingual-cases”模型以进行文本相似度定制

我正在尝试进行语义搜索,但预训练模型在意大利杂货数据上并不准确。

例如。

在上面的例子中,问题是预训练的 BERT 模型没有返回上下文相似度。结果应按以下顺序排列。

预期结果:

微调尝试:

0 投票
1 回答
33 浏览

python - 使用 Gensim Word2Vec 模型的权重作为另一个模型的起点

我有两个来自同一领域的语料库,但有时间变化,比如十年。我想在它们上训练 Word2vec 模型,然后研究影响语义转变的不同因素。

我想知道如何使用第一个模型的嵌入初始化第二个模型,以尽可能避免共现估计中方差的影响。

0 投票
1 回答
146 浏览

python - 语义搜索微调

例如。句子余弦相似度的预训练 BERT 结果

在上面的示例中,我正在搜索牛奶,结果应该首先与牛奶相关,但在这里它首先返回巧克力。如何微调结果的相似性?

我用谷歌搜索了它,但没有找到任何合适的解决方案,请帮助我。

代码:

0 投票
0 回答
13 浏览

amazon-web-services - 微调 Amazon Comprehent 的情绪分析

我有一个非常简短的问题:是否可以微调 Amazon Comprehend Sentiment Analyzer?我在互联网上找不到任何东西,但不知何故感觉很奇怪,这是不可能的。

干杯

0 投票
0 回答
597 浏览

huggingface-transformers - 如何用拥抱脸从头开始训练一个伯特模型?

我在这个问题中找到了从头开始训练模型的答案: 如何在 MLM 和 NSP 的新域上从头开始训练 BERT?

一个答案像这样使用 Trainer 和 TrainingArguments:

但是 huggingface 官方文档Fine-tuning a pretrained model 也使用 Trainer 和 TrainingArguments 以同样的方式进行微调。所以当我使用 Trainer 和 TrainingArguments 训练模型时,我是从头开始训练模型还是只是微调?

0 投票
1 回答
344 浏览

python - 使用 HuggingFace 在训练前任务上微调 mBART

我想facebook/mbart-large-cc25使用预训练任务对我的数据进行微调,特别是掩蔽语言建模 (MLM)。

我怎样才能在 HuggingFace 中做到这一点?

编辑:为了清楚起见重写了问题

0 投票
0 回答
32 浏览

nlp - NeMo Conformer-CTC 在微调时重复预测同一个词

我在 LibriSpeech 数据集上使用 NeMo Conformer-CTC small(干净的子集,大约 29K 输入,90% 用于训练,10% 用于测试)。我使用 Pytorch 闪电。

当我尝试训练时,该模型在 50 个 epoch 中学习了 1 或 2 个句子,然后卡在了 60 个左右的损失中(我也训练了 200 个 epoch 并且它没有让步)。但是,当我尝试使用工具包中的预训练模型对其进行微调时,它会在 Validation Sanity Check 上正确预测,然后当它开始训练时,它会重复预测相同的词或几个词,并且损失不断增加,直到达到 3e +07 变成 nan。

更改学习率并使用另一个数据集(VCTK)后,我得到了相同的结果。我尝试对另一个模型(quartznet)做同样的事情,它工作得很好。

有人知道会发生什么吗?

谢谢!