问题标签 [huggingface-datasets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Jupyter 笔记本中的 ModuleNotFoundError 拥抱面数据集
我想在 Jupyter 笔记本中使用 huggingface 数据集库。
这应该像安装它(pip install datasets
,在 venv 中的 bash 中)并导入它(import datasets
在 Python 或笔记本中)一样简单。
当我在标准的 Python 交互式 shell 中测试它时,一切正常,但是,在 Jupyter 笔记本中尝试时,它说:
起初,我认为可能是笔记本内核使用了不同的虚拟环境,但我从笔记本内部验证了该软件包已安装:
!pip install datasets
和
!pip freeze
有任何想法吗?我需要以特殊方式配置笔记本,还是数据集模块有问题?谢谢!
编辑:按照下面的答案,这会使错误消失:
但是有没有一种方法可以在不明确设置这条路径的情况下工作?(或者有人可以解释为什么这里有必要吗?)
nlp - 在拥抱面数据集上迭代 DataLoader 时获取批处理索引
下面的代码取自 huggingface 的教程:
在循环内部for batch in eval_dataloader:
,我如何知道该批次包含数据集中的哪些索引?
DataLoader 是使用较早创建的
请注意,它没有改组标志,因此可以使用批量大小手动计数,但是如何进行改组呢?创建数据集和数据加载器时是否可以将其作为批处理的字段?
python - 如何从拥抱脸使用 deberta 模型并使用 .compile() 和 . summary() 用它
我用这段代码来加载权重
之后我想使用编译函数优化和使用损失函数
我收到此错误 AttributeError: 'DebertaModel' object has no attribute 'compile'
pytorch - 设置 `remove_unused_columns=False` 会导致 HuggingFace Trainer 类出错
我正在使用 HuggingFace Trainer 类训练模型。以下代码做得不错:
但是,设置remove_unused_columns=False
会导致以下错误:
任何建议都受到高度赞赏。
python - 如何在 Google Colab 上以流模式加载数据集?
我正在尝试节省一些磁盘空间以在 Google Colab 上使用 CommonVoice French 数据集 (19G),因为我的笔记本总是因磁盘空间不足而崩溃。我从HuggingFace文档中看到,我们可以以流模式加载数据集,这样我们就可以iterate over it directly without having to download the entire dataset.
。我尝试在 Google Colab 中使用该模式,但无法使其工作 - 而且我还没有找到任何关于此问题的信息。
然后,我收到以下错误:
Google Colab 不允许流式加载数据集有什么原因吗?
否则,我错过了什么?
python - Pandas DataFrame 使用 hugginface 数据集进行转换
上面的代码是显示在 HuggingFace 数据集中随机选取的一些示例的函数。
我有两个问题。
(lambda i: typ.names[i])
我不明白这个 lambda 函数到底做了什么。
- 与第一个问题类似,为什么
df[column]
需要转换?
正如我print(df[column])
在 line 之前和之后放置的那样df[column] = df[column].transform(lambda i: typ.names[i])
,我看到没有任何改变。
谢谢。
python - 将训练语料库提供给 train_new_from_iterator 方法时的关键错误
我在这里关注本教程:https ://github.com/huggingface/notebooks/blob/master/examples/tokenizer_training.ipynb
因此,使用此代码,我添加了我的自定义数据集:
然后,我使用此代码查看数据集:
访问一个元素:
访问切片目录:
成功执行上述代码后,我尝试在这里执行:
但是,我收到此错误:
我该如何解决?
我正在尝试训练自己的标记器,这似乎是一个问题。
任何帮助,将不胜感激!
pytorch - PyTorch:我可以按长度对批次进行分组吗?
我正在做一个 ASR 项目,我使用 HuggingFace ( wav2vec2
) 中的模型。我现在的目标是将培训过程转移到 PyTorch,因此我正在尝试重新创建 HuggingFaceTrainer()
课程提供的所有内容。
这些实用程序之一是能够按长度对批次进行分组并将其与动态填充相结合(通过数据整理器)。然而,老实说,我什至不知道如何在 PyTorch 中开始。
在我的例子中,输入是一维数组,代表 .wav 文件的原始波形。因此,在训练之前,我需要确保将相似大小的数组分批在一起。我是否需要创建一个自定义 Dataloader 类并对其进行更改,以便每次它给我的批量大小尽可能接近?
我的一个想法是以某种方式将数据从最短到最长(或相反)排序,并且每次都从中提取 batch_size 样本。这样,第一批将由最大长度的样本组成,第二批将具有第二大长度,依此类推。
不过,我不确定如何处理这个实现。任何建议将不胜感激。
提前致谢。
bert-language-model - CamembertForSequenceClassification:训练不起作用
我尝试使用和调整基于拥抱脸模型的笔记本:GLUE 上的文本分类(https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/text_classification.ipynb#scrollTo=YZbiBDuGIrId)
我的目标是对一个句子进行分类(预定义 16 个类)。
所以我跟着笔记本做了。我的数据如下所示。
我有一个这样的标签
输出:
以前在笔记本中做过所有事情,当我尝试这样做时:
我有错误:The following columns in the training set don't have a corresponding argument in
CamembertForSequenceClassification.forward and have been ignored: langue, id, data.
IndexError: tuple index out of range
我能做些什么 ?
bert-language-model - 编码/标记数据集字典(BERT/Huggingface)
我正在尝试微调我的情绪分析模型。因此,我将我的 pandas 数据框(评论列,情绪得分列)拆分为训练和测试数据框,并将所有内容转换为数据集字典:
我正在将所有内容转换为数据集字典,因为我或多或少地遵循代码并将其转移到我的问题中。无论如何,我正在定义要标记的函数:
并使用以下方法调用该函数:
在这一切之后我收到了这个错误:
我错过了什么?抱歉,我对整个 Huggingface 基础设施完全陌生……</p>