问题标签 [data-augmentation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
validation - 如果我们先扩充数据然后随机选择数据然后拆分数据可以吗?
我正在做一个关于对医学图像进行分类的科学项目,但我没有很多数据,所以我可以先扩充数据,然后随机选择要保留的数据,然后再拆分保留的数据吗?起初,我的老师告诉我先扩充数据,然后将数据拆分为训练、验证和测试。但是我认为我提出的方法会使训练数据集与测试数据集发生冲突,这将导致准确性不切实际(太高),所以我认为我在进行数据增强后随机选择文件的方法应该有助于增强数据集彼此不要太相似,解决数据集数量不平衡的问题。
python - 数据增强功能不正确
请注意:我是新手,所以请温柔一点。
我正在尝试创建一个函数,该函数将移动 MNIST 数据集中的每个图像并将移动后的图像添加到原始数据集中,从而有效地将数据集大小加倍。
我的代码(警告,这可能是一团糟,我最终将不得不学习如何编写更优雅的函数):
我检查了输出的数据集,它似乎没有应用转变。任何人都可以指导我过去吗?
keras - 检查目标时出错:预期 dense_34 有 2 个维度,但得到的数组形状为 (64, 10, 2)
我看到已经回答了类似的问题,这帮助我意识到输入不是模型所期望的,但我无法找到如何纠正这个问题。
我的问题是为什么它需要二维,我可以对我的代码做些什么来使这项工作分为 10 个不同的类?
python - 更改 Keras ImageDataGenerator 的 numpy.ndarray 的元素
我正在使用 Keras ImageDataGenerator 进行数据扩充。如下生成 ImDatagenerator 后,
我试图DG
通过简单地分配一个具有相同大小的 numpy.ndarray 来更改一个图像的像素,如下所示
虽然它没有给出任何错误,但我没有观察到 DG 有任何变化。
python - Keras Image Preprocessing .flow(x, y, save_to_dir) 只保存增强的 x 图像而不是 y
我正在使用Keras data augmentation
我x_train
和我y_train
的图像进行图像分割任务。
为此,我使用以下代码:
但这只会节省我的增强版x images
而不是他们的labels
. 如何保存图像及其标签以可视化它们?
我已经尝试过将图像和蒙版一起转换但没有成功的示例Keras Image preprocessing
页面上的示例。
我得到错误AttributeError: 'zip' object has no attribute 'shape'
。
编码:
另外,有没有办法data_augmentation
在训练期间增加参数?
python - 如何将所有 tf.data.Dataset 对象提取为特征和标签并传递给 ImageDataGenerator 的 flow() 方法?
我正在研究一个基于cifar10
数据集的小型项目。我已经从图像增强技术中加载数据tfds.load(...)
并练习。
当我使用tf.data.Dataset
对象,这是我的数据集时,实时数据增强是非常无法实现的,因此我想将所有功能传递到tf.keras.preprocessing.image.ImageDataGenerator.flow(...)
以获得实时增强的功能。
但是这个flow(...)
方法接受与tf.data.Dataset
对象没有任何关系的 NumPy 数组。
有人可以在这方面(或任何替代方法)指导我吗?我该如何进一步进行?
tf.image
转换是实时的吗?如果没有,除了 ,还有什么最好的方法ImageDataGenerator.flow(...)
?
我的代码:
python - 使用 tf.data 和叉积对两个数据集进行增强
我想在我的输入管道中编写一个数据增强步骤,从概念上讲,我有两个数据集,它们可以作为一对输入到生成器中,在那里它们将产生一堆输出示例。
通过执行以下操作,我设法实现了这样的目标:
这会产生:
正如预期的那样。我的问题gen
是(在我的真实情况下)计算量很大的操作,所以我想尽可能使用并行调用。到目前为止,我尝试添加 num_parallel_calls 未能产生性能提升。
此外,如果它很重要,我的输入数据集来自一个TFRecordDataset
提供更多添加num_parallel_calls
选项的机会,即
python - 数据增强:需要增强多少比例的训练数据集?
我目前正在研究语音分类问题。我每个班级有 1000 个音频文件,并且有 7 个这样的班级。我需要增加数据以达到更好的准确性。我正在使用 librosa 库进行数据扩充。对于每个音频文件,我都使用下面的代码。
那就是我正在扩充每个音频文件(音高变换和时移)。我想知道,这是增加训练数据集的正确方法吗?如果没有,需要增强的音频文件的比例是多少?