问题标签 [huggingface-datasets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
19 浏览

python - 如何在拥抱脸中使用子特征拟合数据

我正在尝试分别标记 2 个句子并将输出存储为 datasets.Sequence 作为预训练模型的输入input_idstoken_type_idsattention_mask作为输入。我想做一个像

这显示在文档的展平部分

这是映射数据集的代码。

然后它去

问题:

我应该如何修改地图功能?

附加信息:

追溯:

0 投票
1 回答
112 浏览

python - huggingface 中的分块标记化有箭头错误

我在 1 分 25 秒关注此视频中的代码,其中显示:

这是我尝试运行此代码时遇到的错误:

显示一个精细的数据集:

好的,让我们运行分词器:

0 投票
1 回答
86 浏览

python - 在没有互联网连接的情况下从 python 环境安装 python huggingface 数据集包

我无法从我的 python 环境访问互联网连接。我想安装这个

我还注意到此页面包含软件包所需的文件。我通过将该文件复制到我的python环境然后运行以下代码来安装该软件包

但是当我尝试下面的代码时

它抛出错误 ConnectionError: Couldn't reach https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.py (error 403)

https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.py我可以从我的 python 环境之外访问该文件

我应该复制哪些文件以及我应该进行哪些其他代码更改才能使该行正常工作datasets.load_dataset('imdb', split =['train', 'test'])

#更新1======================

我遵循以下建议并在我的 python 环境中复制了以下文件。所以

最后一个文件来自http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz,其他文件来自github.com/huggingface/datasets/tree/master/datasets/imdb

然后我尝试了

但我收到以下错误:(

我也试过

但得到错误

0 投票
1 回答
26 浏览

python - 使用从常见声音中出现错误的 hugging_face load_dataset 加载数据

我正在使用 facebook 拥抱脸转换器处理语音数据集,但无法从 commonvoice 论坛加载数据

它给出以下错误

0 投票
1 回答
21 浏览

audio - 对数据集中的 Wav 音频文件进行下采样

我从 Hugging Face 中获取了 LJ Speech 数据集,用于自动语音识别训练。数据集链接:https ://huggingface.co/datasets/lj_speech 音频的采样率为 22050 Hz。我想将其转换为整个数据集的16000 Hz 。

代码和输出 lj_data['audio'][0]

音频文件描述的输出 截图

0 投票
0 回答
9 浏览

huggingface-transformers - 这是否可以通过使用 T5Config 类对象更改其配置来微调 T5?

训练了Venelin Valkov的视频教程中给出的“T5-base” 。它运作良好。然后我尝试更改一些配置,例如层数(num_layers)并使用退出层数(dropout_rate)

config = T5Config(num_layers=8, dropout_rate=0.2)

然后将配置对象包含在

self.model = T5ForConditionalGeneration.from_pretrained("t5-base", config=config, return_dict = True)

如此处给出,但它没有用。它返回一个错误

TypeError:init()得到了一个意外的关键字参数'return_dict'

请帮忙。

0 投票
0 回答
9 浏览

huggingface-transformers - 正确评估测试数据集

我使用 huggingface 库训练了一个机器翻译模型:

上面的代码取自这个Google Colab notebook。训练结束后,我可以看到训练好的模型被保存到文件夹models中并计算了指标。现在我想加载经过训练的模型并对新数据集进行预测,这是我尝试过的:

它抛出了以下错误:

我也尝试了该evaluate()功能,但它说:

并且该功能eval仅打印模型的配置。在新数据集上评估训练模型的性能的正确方法是什么?

0 投票
0 回答
47 浏览

python - NotADirectoryError: [Errno 20] 不是目录

我收到错误:[Errno 20] Not a directory: '/home/vladislav/.cache/huggingface/datasets/downloads/1bc05d24fa6dda2468e83a73cf6dc207226e01e3c48a507ea716dc0421da583b/cnn/stories',当我尝试从 huggingface 加载数据集 cnn_dailymail 时。

代码:

从数据集导入 load_dataset

dataset = load_dataset("cnn_dailymail", version="3.0.0")

0 投票
0 回答
13 浏览

huggingface-transformers - IterableDataset 的 FAISS 和 ElasticSearch 功能?

这里有一个很好的教程,可以将 FAISS 和 ElasticSearch 功能添加到 HuggingFace 数据集。所需功能(例如“add_faiss_index”或“add_elasticsearch_index”)仅在Dataset中定义,在IterableDataset中不可用。这背后有什么原因吗?如果在 IterableDataset 上应用 FAISS/Elastic 存在任何基本瓶颈,那么这是否意味着 FAISS/Elastic 功能在大数据集中不可用?

0 投票
0 回答
14 浏览

huggingface-datasets - 如何在 Huggingface 数据集中使用 cast_column

我正在尝试使用该cast_column方法,但没有看到任何示例如何做到这一点,也无法成功地将正确的参数传递给它。第一个参数是直截了当的列(或特征)名称。第二个参数是 FeatureType 的东西,我认为我不太明白,或者我没有传入正确的东西。

因此,例如,我可以尝试:

这会给我

TypeError 'pyarrow.lib.DataType' 对象不可调用

那么第二个参数应该是什么样子,或者我的处理方式完全错误?