问题标签 [huggingface-datasets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在拥抱脸中使用子特征拟合数据
我正在尝试分别标记 2 个句子并将输出存储为 datasets.Sequence 作为预训练模型的输入input_ids
,token_type_ids
并attention_mask
作为输入。我想做一个像
这显示在文档的展平部分
这是映射数据集的代码。
然后它去
问题:
我应该如何修改地图功能?
附加信息:
追溯:
python - 在没有互联网连接的情况下从 python 环境安装 python huggingface 数据集包
我无法从我的 python 环境访问互联网连接。我想安装这个库
我还注意到此页面包含软件包所需的文件。我通过将该文件复制到我的python环境然后运行以下代码来安装该软件包
但是当我尝试下面的代码时
它抛出错误
ConnectionError: Couldn't reach https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.py (error 403)
https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.py
我可以从我的 python 环境之外访问该文件
我应该复制哪些文件以及我应该进行哪些其他代码更改才能使该行正常工作datasets.load_dataset('imdb', split =['train', 'test'])
?
#更新1======================
我遵循以下建议并在我的 python 环境中复制了以下文件。所以
最后一个文件来自http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
,其他文件来自github.com/huggingface/datasets/tree/master/datasets/imdb
然后我尝试了
但我收到以下错误:(
我也试过
但得到错误
python - 使用从常见声音中出现错误的 hugging_face load_dataset 加载数据
我正在使用 facebook 拥抱脸转换器处理语音数据集,但无法从 commonvoice 论坛加载数据
它给出以下错误
huggingface-transformers - 这是否可以通过使用 T5Config 类对象更改其配置来微调 T5?
训练了Venelin Valkov的视频教程中给出的“T5-base” 。它运作良好。然后我尝试更改一些配置,例如层数(num_layers)并使用退出层数(dropout_rate)
config = T5Config(num_layers=8, dropout_rate=0.2)
然后将配置对象包含在
self.model = T5ForConditionalGeneration.from_pretrained("t5-base", config=config, return_dict = True)
如此处给出,但它没有用。它返回一个错误
TypeError:init()得到了一个意外的关键字参数'return_dict'
请帮忙。
huggingface-transformers - 正确评估测试数据集
我使用 huggingface 库训练了一个机器翻译模型:
上面的代码取自这个Google Colab notebook。训练结束后,我可以看到训练好的模型被保存到文件夹models
中并计算了指标。现在我想加载经过训练的模型并对新数据集进行预测,这是我尝试过的:
它抛出了以下错误:
我也尝试了该evaluate()
功能,但它说:
并且该功能eval
仅打印模型的配置。在新数据集上评估训练模型的性能的正确方法是什么?
python - NotADirectoryError: [Errno 20] 不是目录
我收到错误:[Errno 20] Not a directory: '/home/vladislav/.cache/huggingface/datasets/downloads/1bc05d24fa6dda2468e83a73cf6dc207226e01e3c48a507ea716dc0421da583b/cnn/stories',当我尝试从 huggingface 加载数据集 cnn_dailymail 时。
代码:
从数据集导入 load_dataset
dataset = load_dataset("cnn_dailymail", version="3.0.0")
huggingface-transformers - IterableDataset 的 FAISS 和 ElasticSearch 功能?
这里有一个很好的教程,可以将 FAISS 和 ElasticSearch 功能添加到 HuggingFace 数据集。所需功能(例如“add_faiss_index”或“add_elasticsearch_index”)仅在Dataset中定义,在IterableDataset中不可用。这背后有什么原因吗?如果在 IterableDataset 上应用 FAISS/Elastic 存在任何基本瓶颈,那么这是否意味着 FAISS/Elastic 功能在大数据集中不可用?
huggingface-datasets - 如何在 Huggingface 数据集中使用 cast_column
我正在尝试使用该cast_column
方法,但没有看到任何示例如何做到这一点,也无法成功地将正确的参数传递给它。第一个参数是直截了当的列(或特征)名称。第二个参数是 FeatureType 的东西,我认为我不太明白,或者我没有传入正确的东西。
因此,例如,我可以尝试:
这会给我
TypeError 'pyarrow.lib.DataType' 对象不可调用
那么第二个参数应该是什么样子,或者我的处理方式完全错误?