问题标签 [huggingface-datasets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
51 浏览

python - python NLP中下一句预测的BERT输入格式

我正在尝试训练一个 BERT 模型来预测正确的下一个话语。我得到了一个解开的对话,我试图从 100 个可能不包含正确的下一个话语的候选池中选择下一个话语。我正在尝试创建一个基于此输入中的数据训练的模型:

messages-so-far 字段包含对话的上下文,options-for-next 包含要从中选择下一个话语的候选者。正确的下一个话语在字段 options-for-correct-answers 中给出。现场场景是指子任务。

我应该把这些数据做成什么格式?它目前是 JSON 格式。我知道它需要是一个 tsv 文件,但我很难弄清楚列中应该包含什么。

我编写了将其放入这种格式的代码

但我不认为这是我想要的。

作为参考,这是将其处理为该格式的代码。关于如何将其更改为我希望能够将其输入到 TSV 文件以进行 BERT 培训的任何建议都很棒!

0 投票
0 回答
7 浏览

nlp - 自定义训练问题:best_model_ranking 不输出某些 ConLL 文件

我已经使用用于一组 ConLL 文件的神经核函数包成功地训练了一个自定义模型。但是,当我从另一组添加更多内容时,我收到此错误:

best_model_ranking(我用于与神经核的共指解析的自定义模型)不存在:

在此处输入图像描述

你以前遇到过这个错误吗?我认为这可能是因为在某些新的 ConLL 文件中,共指之间的标记距离太长了。你有什么想法?非常感谢。

0 投票
1 回答
81 浏览

tensorflow - 如何在微调 Wav2Vec2 预训练模型的同时使用 MFCC 特征提取方法?

我正在浏览一些关于在我的自定义数据集上微调 Wav2Vec2 预训练模型的博客。以下是相同的资源。
https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/multi_lingual_speech_recognition.ipynb#scrollTo=GNFuvi26Yiw6
https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
我是能够完成整个过程,结果也按预期生成。下面是他们提到我们可以使用其他特征提取方法(如 MFCC)的部分的摘录。

最后,我们可以利用 Wav2Vec2Processor 将数据处理为模型期望的格式进行训练。为此,让我们使用 Dataset 的 map(...) 函数。首先,我们通过调用 batch["audio"] 加载和重新采样音频数据。其次,我们从加载的音频文件中提取 input_values。在我们的例子中,Wav2Vec2Processor 只对数据进行规范化。然而,对于其他语音模型,此步骤可以包括更复杂的特征提取,例如 Log-Mel 特征提取。第三,我们将转录内容编码为标签 ID。

这是我自几天以来就被困住的部分。我已经尝试了所有方法,但仍然无法继续。我能够将input_valuesWav2Vec2 处理器生成的值更改为 MFCC 的值,如下面的代码所示,但仍然没有运气。

通过将一维浮点数组的 Wav2Vec2Processor 更改input_values为 MFCC 的系数一维浮点数组,我能够训练模型,但在评估步骤时,它给了我这个错误。

我应该如何继续使用带有 Wav2Vec2 预训练模型的 MFCC 特征提取?

0 投票
1 回答
255 浏览

huggingface-transformers - RuntimeError:张量 (585) 的扩展大小必须与非单维 1 处的现有大小 (514) 匹配

我想使用拥抱脸来预测数千个句子的情绪。

但我收到以下错误。

这篇文章提出了一种解决问题的方法,但没有说明如何在管道中解决它。 张量 a (707) 的大小必须与非单维 1 处的张量 b (512) 的大小相匹配

0 投票
1 回答
33 浏览

nlp - 如何在没有标记化的情况下在拥抱脸中使用变压器?

我有以下代码:

这很好用。但不是 a str,我不想传递 a listof 令牌。我怎么做?

我想这样做的原因是,我的句子已经被标记化并且简单" ".join()并不能正确地重现句子。例如,isn't已被标记为isn't。但是一个简单的" ".join()会产生is n't

0 投票
0 回答
42 浏览

python - ImportError:无法导入名称“is_valid_waiter_error”

我正在关注这本笔记本,单元格“加载数据集”。

我想使用datasets图书馆。

我已经重新启动并重新运行内核conda_pytorch_p36,但没有运气。

我跑:

输出:


细胞:

或者

追溯:

如果还有什么我可以添加到帖子中,请告诉我。

0 投票
1 回答
58 浏览

numpy - HuggingFace 数据集 - pyarrow.lib.ArrowMemoryError:重新分配大小失败

我正在尝试使用 Hugginface 数据集使用转换器进行语音识别,其中我有成对的文本/音频。我正在创建一个数据框,这两个列表没有问题:

但是当试图将其包装到数据集(来自 Hugginface 数据集)时:

它给:

问题在于音频列表,如下所示:

如果我想使用 Huggingface 的转换器包,我必须使用 Dataset 格式。知道如何解决这个问题吗?

0 投票
0 回答
75 浏览

python - 加载 Huggingface 数据集

我正在尝试根据 Huggingface提供的说明此处加载“wiki40b”数据集。因为文件可能很大,所以我试图只加载一小部分数据。在下面,我尝试加载丹麦语子集:

当我运行它时,我得到以下信息:

MissingBeamOptions:尝试使用 Apache Beam 生成数据集,但load_dataset在构建器参数中或构建器参数中未提供 Beam Runner 或 PipelineOptions()。对于大型数据集,它必须在 Dataflow、Spark 等大型数据处理工具上运行。有关 Apache Beam 运行器的更多信息,请访问https://beam.apache.org/documentation/runners/capability-matrix/ 如果你真的想要要在本地运行它,因为您觉得 Dataset 足够小,您可以使用称为的本地光束DirectRunner运行器(您可能会用完内存)。使用示例: load_dataset('wiki40b', 'da', beam_runner='DirectRunner')

鉴于丹麦数据集很小,我希望在本地加载数据 - 因此我用 DirectRunner 重新运行了脚本......

然而,这会导致以下结果:

AttributeError: 'NoneType' 对象没有属性 'projectNumber' dataset = load_dataset('wiki40b', 'da', beam_runner='DirectRunner')

我对此相当缺乏经验,我不确定下一步该转向哪里。

0 投票
0 回答
36 浏览

python - 下载 Hugging Face Medical Dialog 数据集 NonMatchingSplitsSizesError

我想使用这个 github 链接从 huggingface 下载 Nedical Dialog Dataset:

https://github.com/huggingface/datasets/tree/master/datasets/medical_dialog

从谷歌驱动器下载原始数据集后,我解压缩所有内容并将其放在与 medical_dialog.py 相同的文件夹中,即:

运行此代码给了我错误:

0 投票
0 回答
32 浏览

python - 通过 huggingface 构建连体网络 --- 分别使用 huggingface 数据集和转换器以及 tensorflow 标记两个句子

我目前正在使用预训练的 Bert 模型构建一个连体网络,该模型采用'input_ids','token_type_ids'和来自变形金刚。我有一个结构为 的数据集,所以我必须分别标记问题。'attention_mask'inputsquestion1, question2, label

该过程已经进行到一半,直到它尝试将结果转换为pyarrow并引发错误:

在“Flatten”部分的官方文档datasets.Dataset中,似乎数据集可以Sequence作为其特征。

我想建立这样的网络

问题:

如何安排数据集和模型以适合数据?