问题标签 [huggingface-datasets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
107 浏览

nlp - Example.fromJSON(data.read(), 字段)

什么是Example.fromJSON(data.read(), fields), 但与 huggingface ( https://github.com/huggingface ) 的等价物?我需要通过一些变压器来改变机器学习模型中的一些 lstm。现在,要走的路是使用转换器对数据进行预处理。

编辑

来源:https ://huggingface.co/docs/datasets/loading_datasets.html

我想我将不得不使用上面的代码,但仍然不确定。

0 投票
2 回答
115 浏览

dataset - 文件名太长

在本地存储库中,我有几个 json 文件。当我运行命令时

我收到以下错误:

也许这很明显,但我不知道如何解决它。你能帮我吗?

编辑

这是json文件的内容:

0 投票
1 回答
321 浏览

python - KeyError:“['index'] 均不在列中”

这是一个json文件:

我已经跑df = pd.read_json('100252.json')了,但我得到了错误:ValueError: arrays must all be same length

然后我尝试了

但我得到了错误KeyError: "None of ['index'] are in the columns"

我该如何解决这个问题?我不知道我的错误在哪里。这就是为什么我需要你的帮助

编辑

来源:https ://huggingface.co/docs/datasets/loading_datasets.html

在这个网站上,我想做类似的事情

我必须将 json 文件传输到数据框中,然后使用数据集库从 pandas 获取数据集

0 投票
0 回答
115 浏览

python - ArrowInvalid:第 1 列命名的文章预期长度为 40,但长度为 35

这是一个json文件:

这里有问题的片段:

这是错误:

通常, 的 json 输出dataset应该等同于您在此问题上看到的内容。我该如何解决这个错误?

0 投票
0 回答
165 浏览

huggingface-transformers - ValueError:输入无效。应该是字符串、字符串列表/元组或整数列表/元组

当我运行这段代码时,我有

我有一个字符串列表,而不是字符串列表。以下是 的内容batch["article"]

我该如何解决这个问题?

0 投票
0 回答
78 浏览

python - 以一种特殊的方式标记句子

运行代码后,这里输出dataset["test"]["abstract"]

在此处输入图像描述

我希望每个句子都具有这种标记化结构。我怎么能用拥抱脸做这样的事情?事实上,我认为我必须将上述列表的每个列表展平以获得字符串列表,然后对每个字符串进行标记。

0 投票
0 回答
47 浏览

tensorflow - 在微调 PEGASUS 中改变权重衰减和预热步骤有什么影响?

我正在使用这个脚本微调 PEGASUS 模型。我目前正在使用 SAMSum 数据集,并且我已经达到了输出没有变得更好的地步。

例子:

实际总结

亚历克西斯和卡特今晚见面了。卡特想再次见面,但亚历克西斯很忙。

最佳输出摘要(基于人工评估)

“卡特和亚历克西斯准备好了。”

第二个最佳输出摘要(基于人工评估)

['卡特和亚历克西斯准备好了,我明天想看看。但']

如上所示,摘要的含义不同,所以我想知道改变体重衰减或热身步骤是否有助于获得更好的结果?如果是这样,增加或减少重量衰减或热身步骤的值会更好吗?

笔记:

  1. 我在使用 Colab pro 时使用批量大小 1,最大 GPU 大小为 16280MB,因此使用更大的批量大小不允许使用整个数据集大小,这会导致更差的结果。当前的热身步骤也是 500,我在 2000 个 epoch 中总共有 4000 步,重量衰减为 0.01

  2. 我已经为训练/验证/测试使用了不同的组合和大小。默认值为 90/5/5,但我尝试了 90/10/0、70/15/15、70/30/0

  3. 在 90/10/0、70/15/15 和 70/30/0 的组合中,始终在 500 步左右产生最佳输出,在 2500 步产生第二最佳输出

任何进一步提高输出的提示将不胜感激,并提前感谢您!

0 投票
3 回答
923 浏览

python - 拥抱脸:NameError:未定义名称“句子”

我在这里关注本教程:https ://huggingface.co/transformers/training.html - 不过,我遇到了一个错误,我认为本教程缺少导入,但我不知道是哪个。

这些是我目前的进口:

当前代码:

错误:

0 投票
2 回答
801 浏览

python - 分词器的 batch_encode_plus 方法有问题

我在batch_encode_plus标记器的方法中遇到了一个奇怪的问题。我最近从变压器版本 3.3.0 切换到 4.5.1。(我正在为 NER 创建我的数据包)。

我有 2 个句子需要编码,并且有一个句子已经被标记化的情况,但是由于这两个句子的长度不同,所以我需要pad [PAD]较短的句子才能使我的批次长度统一。

下面是我用 3.3.0 版本的变形金刚做的代码

但是如果我尝试在变压器版本 4.5.1 中模仿相同的行为,我会得到不同的输出

不知道如何处理这个,或者我在这里做错了什么。

0 投票
0 回答
141 浏览

python - 如何从拥抱脸 load_dataset 加载一定百分比的数据

我正在尝试下载总计 29GB 的“librispeech_asr”数据集,但由于 google colab 中的空间有限,我无法下载/加载数据集,即笔记本崩溃。

所以我做了一些研究,发现split我们可以在load_dataset函数中传递下载部分数据集的论点,但它仍然是在笔记本上下载整个 30GB 数据集。论据split不成立...

我试图只加载 50% 的“train.360”数据,但我无法这样做。

什么是正确的方法,我做错了什么?