问题标签 [huggingface-datasets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - python NLP中下一句预测的BERT输入格式
我正在尝试训练一个 BERT 模型来预测正确的下一个话语。我得到了一个解开的对话,我试图从 100 个可能不包含正确的下一个话语的候选池中选择下一个话语。我正在尝试创建一个基于此输入中的数据训练的模型:
messages-so-far 字段包含对话的上下文,options-for-next 包含要从中选择下一个话语的候选者。正确的下一个话语在字段 options-for-correct-answers 中给出。现场场景是指子任务。
我应该把这些数据做成什么格式?它目前是 JSON 格式。我知道它需要是一个 tsv 文件,但我很难弄清楚列中应该包含什么。
我编写了将其放入这种格式的代码
但我不认为这是我想要的。
作为参考,这是将其处理为该格式的代码。关于如何将其更改为我希望能够将其输入到 TSV 文件以进行 BERT 培训的任何建议都很棒!
tensorflow - 如何在微调 Wav2Vec2 预训练模型的同时使用 MFCC 特征提取方法?
我正在浏览一些关于在我的自定义数据集上微调 Wav2Vec2 预训练模型的博客。以下是相同的资源。
https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/multi_lingual_speech_recognition.ipynb#scrollTo=GNFuvi26Yiw6
https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
我是能够完成整个过程,结果也按预期生成。下面是他们提到我们可以使用其他特征提取方法(如 MFCC)的部分的摘录。
最后,我们可以利用 Wav2Vec2Processor 将数据处理为模型期望的格式进行训练。为此,让我们使用 Dataset 的 map(...) 函数。首先,我们通过调用 batch["audio"] 加载和重新采样音频数据。其次,我们从加载的音频文件中提取 input_values。在我们的例子中,Wav2Vec2Processor 只对数据进行规范化。然而,对于其他语音模型,此步骤可以包括更复杂的特征提取,例如 Log-Mel 特征提取。第三,我们将转录内容编码为标签 ID。
这是我自几天以来就被困住的部分。我已经尝试了所有方法,但仍然无法继续。我能够将input_values
Wav2Vec2 处理器生成的值更改为 MFCC 的值,如下面的代码所示,但仍然没有运气。
通过将一维浮点数组的 Wav2Vec2Processor 更改input_values
为 MFCC 的系数一维浮点数组,我能够训练模型,但在评估步骤时,它给了我这个错误。
我应该如何继续使用带有 Wav2Vec2 预训练模型的 MFCC 特征提取?
huggingface-transformers - RuntimeError:张量 (585) 的扩展大小必须与非单维 1 处的现有大小 (514) 匹配
我想使用拥抱脸来预测数千个句子的情绪。
但我收到以下错误。
这篇文章提出了一种解决问题的方法,但没有说明如何在管道中解决它。 张量 a (707) 的大小必须与非单维 1 处的张量 b (512) 的大小相匹配
nlp - 如何在没有标记化的情况下在拥抱脸中使用变压器?
我有以下代码:
这很好用。但不是 a str
,我不想传递 a list
of 令牌。我怎么做?
我想这样做的原因是,我的句子已经被标记化并且简单" ".join()
并不能正确地重现句子。例如,isn't
已被标记为is
和n't
。但是一个简单的" ".join()
会产生is n't
python - ImportError:无法导入名称“is_valid_waiter_error”
我正在关注这本笔记本,单元格“加载数据集”。
我想使用datasets
图书馆。
我已经重新启动并重新运行内核conda_pytorch_p36
,但没有运气。
我跑:
输出:
细胞:
或者
追溯:
如果还有什么我可以添加到帖子中,请告诉我。
numpy - HuggingFace 数据集 - pyarrow.lib.ArrowMemoryError:重新分配大小失败
我正在尝试使用 Hugginface 数据集使用转换器进行语音识别,其中我有成对的文本/音频。我正在创建一个数据框,这两个列表没有问题:
但是当试图将其包装到数据集(来自 Hugginface 数据集)时:
它给:
问题在于音频列表,如下所示:
如果我想使用 Huggingface 的转换器包,我必须使用 Dataset 格式。知道如何解决这个问题吗?
python - 加载 Huggingface 数据集
我正在尝试根据 Huggingface提供的说明在此处加载“wiki40b”数据集。因为文件可能很大,所以我试图只加载一小部分数据。在下面,我尝试加载丹麦语子集:
当我运行它时,我得到以下信息:
MissingBeamOptions:尝试使用 Apache Beam 生成数据集,但
load_dataset
在构建器参数中或构建器参数中未提供 Beam Runner 或 PipelineOptions()。对于大型数据集,它必须在 Dataflow、Spark 等大型数据处理工具上运行。有关 Apache Beam 运行器的更多信息,请访问https://beam.apache.org/documentation/runners/capability-matrix/ 如果你真的想要要在本地运行它,因为您觉得 Dataset 足够小,您可以使用称为的本地光束DirectRunner
运行器(您可能会用完内存)。使用示例:load_dataset('wiki40b', 'da', beam_runner='DirectRunner')
鉴于丹麦数据集很小,我希望在本地加载数据 - 因此我用 DirectRunner 重新运行了脚本......
然而,这会导致以下结果:
AttributeError: 'NoneType' 对象没有属性 'projectNumber' dataset = load_dataset('wiki40b', 'da', beam_runner='DirectRunner')
我对此相当缺乏经验,我不确定下一步该转向哪里。
python - 下载 Hugging Face Medical Dialog 数据集 NonMatchingSplitsSizesError
我想使用这个 github 链接从 huggingface 下载 Nedical Dialog Dataset:
https://github.com/huggingface/datasets/tree/master/datasets/medical_dialog
从谷歌驱动器下载原始数据集后,我解压缩所有内容并将其放在与 medical_dialog.py 相同的文件夹中,即:
运行此代码给了我错误: