问题标签 [huggingface-datasets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
723 浏览

deep-learning - HUGGINGFACE TypeError:“NoneType”和“int”实例之间不支持“>”

我正在对自定义(使用 HuggingFace)数据集进行微调预训练模型我将从一个 youtube 视频中正确复制所有代码,一切正常,但在此单元格/代码中:

它会给我这个错误:

0 投票
0 回答
98 浏览

python - “import soundfile as sf”在 Jupyter Notebook 上返回 NameError

我正在使用 SoundFile Python 库和HuggingFace 的 Timit 数据集,但我遇到了 NameError 的问题:名称“sf 未定义”。

我最初使用“pip install soundfile”安装了 SoundFile。我尝试卸载并重新安装,甚至降级到以前的版本(使用“pip install SoundFile==0.10.2”),但这不起作用。

我正在使用 Jupyter Notebook。

这是我的代码:

上面的代码给出了以下错误:

0 投票
0 回答
84 浏览

python - ValueError: 请在写入数据时传递 `features` 或至少一个示例

我是拥抱脸的新手,正在编写电影生成脚本。到目前为止,我的代码看起来像这样

但是我不断收到此错误

ValueError: Please pass `features` or at least one example when writing data 这与我定义标记器等的方式有什么关系。我将如何解决这个问题?任何帮助,将不胜感激。

0 投票
1 回答
222 浏览

huggingface-transformers - 如何在 Huggingfaces 中从 CSV 加载自定义数据集

我想使用从 csv 加载自定义数据集huggingfaces-transformers

0 投票
0 回答
78 浏览

python - Amazon SageMaker 与 huggingface load_dataset 到 Amazon S3 存储桶

我正在使用 Amazon SageMaker 训练具有多个 GB 数据的模型。

我的数据是使用 huggingface 的 datasets.load_dataset 方法加载的。由于数据量很大并且我想重复使用它,我想将它存储在 Amazon S3 存储桶中。我在下面试过:

但这会导致:

简短:如何通过 huggingface datasets.load_dataset 将庞大的数据集下载到 S3 存储桶中,以便我可以在 SageMaker 上处理它?

0 投票
1 回答
208 浏览

python - 推理后如何将标记化的单词转换回原始单词?

我正在为已经训练过的 NER 模型编写推理脚本,但我无法将编码的标记(它们的 id)转换为原始单词。

结果接近我需要的:

如何将'am', '##az', '##on'和组合'B-COMPANY', 'X', 'X'成一个令牌/标签?我知道convert_tokens_to_string在 Tokenizer 中调用了一个方法,但它只返回一个大字符串,很难映射到标记。

问候

0 投票
0 回答
58 浏览

pytorch - HuggingFace:加载没有缓存的大型数据集(来自本地目录)

我想使用 50GB 和 1TB 的数据集来训练 HuggingFace 的模型。我已经构建了可以在较小版本的数据集上正常工作的data_loader。但是,对于完整的数据集,缓存时间过长。我们有足够的计算能力,但一个人最多可以在服务器上保留一个资源6 小时。因此,data_loader可以在允许的时间段内缓存高达 50G 数据集的 60-70%。

有没有办法:

  1. 从本地目录加载数据而不缓存?
  2. 在超时(6 小时)发生后恢复缓存过程。

我试图增加 的数量num_procdataloader_num_workers但没有一个显示任何好处。

请注意,我的时间段不能超过 6 小时。我的 data_loader 在本地系统上运行良好,可以在 24 小时内缓存数据。

0 投票
0 回答
51 浏览

python-3.x - load_dataset 在拥抱脸中需要多长时间?

我想使用 huggingface 预训练一个 T5 模型。第一步是使用以下代码训练标记器:

对于下载部分,消息是:

我在 Google Colab Pro 上运行它(使用 High Ram 设置和 TPU)。但是,大约2个小时,执行线仍在运行load_datset

在做什么?load_dataset花这么多时间是正常的吗?我应该中断它并再次运行它吗?

0 投票
1 回答
54 浏览

python - 如何在大数据集上训练分词器?

基于示例,我正在尝试为波斯语训练一个标记器和一个 T5 模型。当我尝试运行以下代码时,我使用 Google Colab pro:

它卡住了,train_from_iterator因为数据集的大小很大(input_sentence_size大约 8M 句子)我如何划分数据集并在每个块上运行代码,然后将它们合并到分词器输出?

0 投票
0 回答
262 浏览

pytorch - 为令牌分类创建自定义数据集 [layoutlm]

我正在尝试按照教程(参考代码)为令牌分类模型创建自定义数据集。作为这一切的新手,我将感谢您帮助我走上正轨。

到目前为止,我已经设法创建了一个看起来像这样的训练/测试数据框。

此外,我有这个“preprocess_data()”函数,我不知道如何在 df 上应用它并在其上创建自定义数据集。

我将此代码应用于 df 的单个记录,它给出了预期的结果(根据文档)。