问题标签 [huggingface-datasets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
deep-learning - HUGGINGFACE TypeError:“NoneType”和“int”实例之间不支持“>”
我正在对自定义(使用 HuggingFace)数据集进行微调预训练模型我将从一个 youtube 视频中正确复制所有代码,一切正常,但在此单元格/代码中:
它会给我这个错误:
python - “import soundfile as sf”在 Jupyter Notebook 上返回 NameError
我正在使用 SoundFile Python 库和HuggingFace 的 Timit 数据集,但我遇到了 NameError 的问题:名称“sf 未定义”。
我最初使用“pip install soundfile”安装了 SoundFile。我尝试卸载并重新安装,甚至降级到以前的版本(使用“pip install SoundFile==0.10.2”),但这不起作用。
我正在使用 Jupyter Notebook。
这是我的代码:
上面的代码给出了以下错误:
python - ValueError: 请在写入数据时传递 `features` 或至少一个示例
我是拥抱脸的新手,正在编写电影生成脚本。到目前为止,我的代码看起来像这样
但是我不断收到此错误
ValueError: Please pass `features` or at least one example when writing data
这与我定义标记器等的方式有什么关系。我将如何解决这个问题?任何帮助,将不胜感激。
huggingface-transformers - 如何在 Huggingfaces 中从 CSV 加载自定义数据集
我想使用从 csv 加载自定义数据集huggingfaces-transformers
python - Amazon SageMaker 与 huggingface load_dataset 到 Amazon S3 存储桶
我正在使用 Amazon SageMaker 训练具有多个 GB 数据的模型。
我的数据是使用 huggingface 的 datasets.load_dataset 方法加载的。由于数据量很大并且我想重复使用它,我想将它存储在 Amazon S3 存储桶中。我在下面试过:
但这会导致:
简短:如何通过 huggingface datasets.load_dataset 将庞大的数据集下载到 S3 存储桶中,以便我可以在 SageMaker 上处理它?
python - 推理后如何将标记化的单词转换回原始单词?
我正在为已经训练过的 NER 模型编写推理脚本,但我无法将编码的标记(它们的 id)转换为原始单词。
结果接近我需要的:
如何将'am', '##az', '##on'
和组合'B-COMPANY', 'X', 'X'
成一个令牌/标签?我知道convert_tokens_to_string
在 Tokenizer 中调用了一个方法,但它只返回一个大字符串,很难映射到标记。
问候
pytorch - HuggingFace:加载没有缓存的大型数据集(来自本地目录)
我想使用 50GB 和 1TB 的数据集来训练 HuggingFace 的模型。我已经构建了可以在较小版本的数据集上正常工作的data_loader。但是,对于完整的数据集,缓存时间过长。我们有足够的计算能力,但一个人最多可以在服务器上保留一个资源6 小时。因此,data_loader可以在允许的时间段内缓存高达 50G 数据集的 60-70%。
有没有办法:
- 从本地目录加载数据而不缓存?
- 在超时(6 小时)发生后恢复缓存过程。
我试图增加 的数量num_proc
,dataloader_num_workers
但没有一个显示任何好处。
请注意,我的时间段不能超过 6 小时。我的 data_loader 在本地系统上运行良好,可以在 24 小时内缓存数据。
python-3.x - load_dataset 在拥抱脸中需要多长时间?
我想使用 huggingface 预训练一个 T5 模型。第一步是使用以下代码训练标记器:
对于下载部分,消息是:
我在 Google Colab Pro 上运行它(使用 High Ram 设置和 TPU)。但是,大约2个小时,执行线仍在运行load_datset
在做什么?load_dataset
花这么多时间是正常的吗?我应该中断它并再次运行它吗?
python - 如何在大数据集上训练分词器?
基于示例,我正在尝试为波斯语训练一个标记器和一个 T5 模型。当我尝试运行以下代码时,我使用 Google Colab pro:
它卡住了,train_from_iterator
因为数据集的大小很大(input_sentence_size
大约 8M 句子)我如何划分数据集并在每个块上运行代码,然后将它们合并到分词器输出?