问题标签 [huggingface-datasets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - Example.fromJSON(data.read(), 字段)
什么是Example.fromJSON(data.read(), fields)
, 但与 huggingface ( https://github.com/huggingface ) 的等价物?我需要通过一些变压器来改变机器学习模型中的一些 lstm。现在,要走的路是使用转换器对数据进行预处理。
编辑
来源:https ://huggingface.co/docs/datasets/loading_datasets.html
我想我将不得不使用上面的代码,但仍然不确定。
dataset - 文件名太长
在本地存储库中,我有几个 json 文件。当我运行命令时
我收到以下错误:
也许这很明显,但我不知道如何解决它。你能帮我吗?
编辑
这是json文件的内容:
python - KeyError:“['index'] 均不在列中”
这是一个json文件:
我已经跑df = pd.read_json('100252.json')
了,但我得到了错误:ValueError: arrays must all be same length
然后我尝试了
但我得到了错误KeyError: "None of ['index'] are in the columns"
我该如何解决这个问题?我不知道我的错误在哪里。这就是为什么我需要你的帮助
编辑
来源:https ://huggingface.co/docs/datasets/loading_datasets.html
在这个网站上,我想做类似的事情
我必须将 json 文件传输到数据框中,然后使用数据集库从 pandas 获取数据集
python - ArrowInvalid:第 1 列命名的文章预期长度为 40,但长度为 35
这是一个json文件:
这里有问题的片段:
这是错误:
通常, 的 json 输出dataset
应该等同于您在此问题上看到的内容。我该如何解决这个错误?
huggingface-transformers - ValueError:输入无效。应该是字符串、字符串列表/元组或整数列表/元组
当我运行这段代码时,我有
我有一个字符串列表,而不是字符串列表。以下是 的内容batch["article"]
:
我该如何解决这个问题?
tensorflow - 在微调 PEGASUS 中改变权重衰减和预热步骤有什么影响?
我正在使用这个脚本微调 PEGASUS 模型。我目前正在使用 SAMSum 数据集,并且我已经达到了输出没有变得更好的地步。
例子:
实际总结
亚历克西斯和卡特今晚见面了。卡特想再次见面,但亚历克西斯很忙。
最佳输出摘要(基于人工评估)
“卡特和亚历克西斯准备好了。”
第二个最佳输出摘要(基于人工评估)
['卡特和亚历克西斯准备好了,我明天想看看。但']
如上所示,摘要的含义不同,所以我想知道改变体重衰减或热身步骤是否有助于获得更好的结果?如果是这样,增加或减少重量衰减或热身步骤的值会更好吗?
笔记:
我在使用 Colab pro 时使用批量大小 1,最大 GPU 大小为 16280MB,因此使用更大的批量大小不允许使用整个数据集大小,这会导致更差的结果。当前的热身步骤也是 500,我在 2000 个 epoch 中总共有 4000 步,重量衰减为 0.01
我已经为训练/验证/测试使用了不同的组合和大小。默认值为 90/5/5,但我尝试了 90/10/0、70/15/15、70/30/0
在 90/10/0、70/15/15 和 70/30/0 的组合中,始终在 500 步左右产生最佳输出,在 2500 步产生第二最佳输出
任何进一步提高输出的提示将不胜感激,并提前感谢您!
python - 拥抱脸:NameError:未定义名称“句子”
我在这里关注本教程:https ://huggingface.co/transformers/training.html - 不过,我遇到了一个错误,我认为本教程缺少导入,但我不知道是哪个。
这些是我目前的进口:
当前代码:
错误:
python - 分词器的 batch_encode_plus 方法有问题
我在batch_encode_plus
标记器的方法中遇到了一个奇怪的问题。我最近从变压器版本 3.3.0 切换到 4.5.1。(我正在为 NER 创建我的数据包)。
我有 2 个句子需要编码,并且有一个句子已经被标记化的情况,但是由于这两个句子的长度不同,所以我需要pad [PAD]
较短的句子才能使我的批次长度统一。
下面是我用 3.3.0 版本的变形金刚做的代码
但是如果我尝试在变压器版本 4.5.1 中模仿相同的行为,我会得到不同的输出
不知道如何处理这个,或者我在这里做错了什么。
python - 如何从拥抱脸 load_dataset 加载一定百分比的数据
我正在尝试下载总计 29GB 的“librispeech_asr”数据集,但由于 google colab 中的空间有限,我无法下载/加载数据集,即笔记本崩溃。
所以我做了一些研究,发现split
我们可以在load_dataset
函数中传递下载部分数据集的论点,但它仍然是在笔记本上下载整个 30GB 数据集。论据split
不成立...
我试图只加载 50% 的“train.360”数据,但我无法这样做。
什么是正确的方法,我做错了什么?