“huggingface-datasets”的相关标签问题

0 投票

0 回答

51 浏览

python - python NLP中下一句预测的BERT输入格式

我正在尝试训练一个 BERT 模型来预测正确的下一个话语。我得到了一个解开的对话，我试图从 100 个可能不包含正确的下一个话语的候选池中选择下一个话语。我正在尝试创建一个基于此输入中的数据训练的模型：

messages-so-far 字段包含对话的上下文，options-for-next 包含要从中选择下一个话语的候选者。正确的下一个话语在字段 options-for-correct-answers 中给出。现场场景是指子任务。

我应该把这些数据做成什么格式？它目前是 JSON 格式。我知道它需要是一个 tsv 文件，但我很难弄清楚列中应该包含什么。

我编写了将其放入这种格式的代码

但我不认为这是我想要的。

作为参考，这是将其处理为该格式的代码。关于如何将其更改为我希望能够将其输入到 TSV 文件以进行 BERT 培训的任何建议都很棒！

2021-12-01T17:58:43.497

0 投票

0 回答

7 浏览

nlp - 自定义训练问题：best_model_ranking 不输出某些 ConLL 文件

我已经使用用于一组 ConLL 文件的神经核函数包成功地训练了一个自定义模型。但是，当我从另一组添加更多内容时，我收到此错误：

best_model_ranking（我用于与神经核的共指解析的自定义模型）不存在：

你以前遇到过这个错误吗？我认为这可能是因为在某些新的 ConLL 文件中，共指之间的标记距离太长了。你有什么想法？非常感谢。

nlp custom-training huggingface-datasets coreference-resolution

2021-12-01T18:15:37.657

0 投票

1 回答

81 浏览

tensorflow - 如何在微调 Wav2Vec2 预训练模型的同时使用 MFCC 特征提取方法？

我正在浏览一些关于在我的自定义数据集上微调 Wav2Vec2 预训练模型的博客。以下是相同的资源。
https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/multi_lingual_speech_recognition.ipynb#scrollTo=GNFuvi26Yiw6
https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
我是能够完成整个过程，结果也按预期生成。下面是他们提到我们可以使用其他特征提取方法（如 MFCC）的部分的摘录。

最后，我们可以利用 Wav2Vec2Processor 将数据处理为模型期望的格式进行训练。为此，让我们使用 Dataset 的 map(...) 函数。首先，我们通过调用 batch["audio"] 加载和重新采样音频数据。其次，我们从加载的音频文件中提取 input_values。在我们的例子中，Wav2Vec2Processor 只对数据进行规范化。然而，对于其他语音模型，此步骤可以包括更复杂的特征提取，例如 Log-Mel 特征提取。第三，我们将转录内容编码为标签 ID。

这是我自几天以来就被困住的部分。我已经尝试了所有方法，但仍然无法继续。我能够将input_valuesWav2Vec2 处理器生成的值更改为 MFCC 的值，如下面的代码所示，但仍然没有运气。

通过将一维浮点数组的 Wav2Vec2Processor 更改input_values为 MFCC 的系数一维浮点数组，我能够训练模型，但在评估步骤时，它给了我这个错误。

我应该如何继续使用带有 Wav2Vec2 预训练模型的 MFCC 特征提取？

tensorflow tensorflow-datasets huggingface-transformers mfcc huggingface-datasets

2021-12-17T19:06:15.250

0 投票

1 回答

255 浏览

huggingface-transformers - RuntimeError：张量 (585) 的扩展大小必须与非单维 1 处的现有大小 (514) 匹配

我想使用拥抱脸来预测数千个句子的情绪。

但我收到以下错误。

这篇文章提出了一种解决问题的方法，但没有说明如何在管道中解决它。张量 a (707) 的大小必须与非单维 1 处的张量 b (512) 的大小相匹配

huggingface-transformers huggingface-tokenizers huggingface-datasets

2021-12-29T14:24:25.600

0 投票

1 回答

33 浏览

nlp - 如何在没有标记化的情况下在拥抱脸中使用变压器？

我有以下代码：

这很好用。但不是 a str，我不想传递 a listof 令牌。我怎么做？

我想这样做的原因是，我的句子已经被标记化并且简单" ".join()并不能正确地重现句子。例如，isn't已被标记为is和n't。但是一个简单的" ".join()会产生is n't

nlp tokenize huggingface-transformers huggingface-tokenizers huggingface-datasets

2022-01-04T18:41:06.153

0 投票

0 回答

42 浏览

python - ImportError：无法导入名称“is_valid_waiter_error”

我正在关注这本笔记本，单元格“加载数据集”。

我想使用datasets图书馆。

我已经重新启动并重新运行内核conda_pytorch_p36，但没有运气。

我跑：

输出：

细胞：

或者

追溯：

如果还有什么我可以添加到帖子中，请告诉我。

python tensorflow importerror huggingface-datasets

2022-01-06T11:05:19.817

0 投票

1 回答

58 浏览

numpy - HuggingFace 数据集 - pyarrow.lib.ArrowMemoryError：重新分配大小失败

我正在尝试使用 Hugginface 数据集使用转换器进行语音识别，其中我有成对的文本/音频。我正在创建一个数据框，这两个列表没有问题：

但是当试图将其包装到数据集（来自 Hugginface 数据集）时：

它给：

问题在于音频列表，如下所示：

如果我想使用 Huggingface 的转换器包，我必须使用 Dataset 格式。知道如何解决这个问题吗？

numpy huggingface-transformers huggingface-datasets

2022-01-10T21:17:48.580

0 投票

0 回答

75 浏览

python - 加载 Huggingface 数据集

我正在尝试根据 Huggingface提供的说明在此处加载“wiki40b”数据集。因为文件可能很大，所以我试图只加载一小部分数据。在下面，我尝试加载丹麦语子集：

当我运行它时，我得到以下信息：

MissingBeamOptions：尝试使用 Apache Beam 生成数据集，但load_dataset在构建器参数中或构建器参数中未提供 Beam Runner 或 PipelineOptions()。对于大型数据集，它必须在 Dataflow、Spark 等大型数据处理工具上运行。有关 Apache Beam 运行器的更多信息，请访问https://beam.apache.org/documentation/runners/capability-matrix/ 如果你真的想要要在本地运行它，因为您觉得 Dataset 足够小，您可以使用称为的本地光束DirectRunner运行器（您可能会用完内存）。使用示例： load_dataset('wiki40b', 'da', beam_runner='DirectRunner')

鉴于丹麦数据集很小，我希望在本地加载数据 - 因此我用 DirectRunner 重新运行了脚本......

然而，这会导致以下结果：

AttributeError: 'NoneType' 对象没有属性 'projectNumber' dataset = load_dataset('wiki40b', 'da', beam_runner='DirectRunner')

我对此相当缺乏经验，我不确定下一步该转向哪里。

python apache-beam huggingface-datasets

2022-01-11T14:36:15.650

0 投票

0 回答

36 浏览

python - 下载 Hugging Face Medical Dialog 数据集 NonMatchingSplitsSizesError

我想使用这个 github 链接从 huggingface 下载 Nedical Dialog Dataset：

https://github.com/huggingface/datasets/tree/master/datasets/medical_dialog

从谷歌驱动器下载原始数据集后，我解压缩所有内容并将其放在与 medical_dialog.py 相同的文件夹中，即：

运行此代码给了我错误：

python github dataset huggingface-datasets

2022-01-12T12:11:46.067

0 投票

0 回答

32 浏览

python - 通过 huggingface 构建连体网络 --- 分别使用 huggingface 数据集和转换器以及 tensorflow 标记两个句子

我目前正在使用预训练的 Bert 模型构建一个连体网络，该模型采用'input_ids','token_type_ids'和来自变形金刚。我有一个结构为的数据集，所以我必须分别标记问题。'attention_mask'inputsquestion1, question2, label

该过程已经进行到一半，直到它尝试将结果转换为pyarrow并引发错误：

在“Flatten”部分的官方文档datasets.Dataset中，似乎数据集可以Sequence作为其特征。

我想建立这样的网络

问题：

如何安排数据集和模型以适合数据？

python tensorflow huggingface-transformers huggingface-tokenizers huggingface-datasets

2022-01-13T06:14:13.823

问题标签 [huggingface-datasets]

问题：

Reference