问题标签 [dataloader]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
149 浏览

image-processing - Pytorch - 推理时损失 0.000 和 keyerror

我的训练集包含 51000 个(3 通道)图像。我正在尝试从包含 2 列图像和标签的 csv 文件/数据帧中获取这些图像进行训练。例如:traindataset.loc[0][0] 表示'/kaggle/input/alaska2-image-steganalysis/UERD/00155.jpg' 这是第一个图像目录,traindataset.loc[0][1] 表示'1'这是该图像的标签,存在 2 个标签 (1,0),因此这是一个二进制分类问题,但我无法弄清楚我的代码中是否存在任何错误。这是我的代码:

使用上面的代码我得到这个输出:

训练损失:0.0000 训练在 34m 53s 内完成

所以我的问题是为什么损失:0.0000

然后我尝试像这样进行测试集预测:

现在我得到这个错误:

0 投票
1 回答
691 浏览

node.js - 猫鼬 findMany 查询与参考

我是猫鼬的新手,我真的没有找到任何参考,猫鼬如何populate处理 findMany 查询ref

例如,我有一个categories集合和一个products集合,因为产品可以分配给许多类别,这就是它们存在于 2 个不同集合中的原因。

现在,如果我在集合上调用findMany方法,并且猫鼬会按类别执行查找产品吗?或者将收集所有引用的产品 ID,并在一个查询中查询所有产品,就像这样做?categoriespopulateproductsdataloader

0 投票
1 回答
177 浏览

python - Pytorch:使用 DataLoader 加载图像样本

我使用来自 torch.utils.data 的标准 DataLoader。我创建数据集类,然后以这种方式构建 DataLoader:

它运行完美,但数据集足够大 - 300k 图像。因此,使用 DataLoader 读取图像需要花费大量时间。所以在debug阶段搭建这么大的DataLoader实在是太可悲了!我只是想测试我的一些假设并想快速完成!我不需要为此加载整个数据集。

我正在尝试找到如何在不在整个数据集上构建 dataLoader 的情况下仅加载数据集的一小部分固定部分的方法? 目前我所有的想法只是创建另一个文件夹,在此处复制部分图像并在其上使用管道。但我想,Pytorch 足够聪明,有一些内置方法可以从大数据集中加载部分图像。你能给我建议怎么做吗?

0 投票
2 回答
4578 浏览

python - Pytorch 的 dataloader shuffle 何时发生?

我已经多次使用 pytorch 数据加载器的 shuffle 选项。但我想知道这种洗牌何时发生以及它是否在迭代期间动态执行。以下面的代码为例:

当我们定义“namesTrainLoader”时,这是否意味着洗牌已经完成,接下来的迭代将基于固定的数据顺序?定义 namesTrainLoader 后,for 循环会不会有随机性?

我试图用一些特殊值替换一半的“batch_data”:

假设会有无限个 epoch,“模型”最终会看到“namesTrainLoader”中的所有数据吗?还是“namesTrainLoader”的一半数据实际上丢失给了“model”?

0 投票
1 回答
167 浏览

rdf - Blazegraph 数据加载器

我尝试将一些三元组导入 Blazegraph 数据库,而所有三元组 w/o 数据类型都被加载。

但是没有加载例如 ^^xsd:date 格式的三元组?!

有谁知道如何处理这个问题?

未加载的示例:

正在加载的示例(见第二行,语言标签也可以正常工作):

该文件通过以下方式加载:

为什么不能通过 blazegraph 用户界面附加日期格式: http://localhost:9999/blazegraph/#update

0 投票
0 回答
385 浏览

python - 在 PyTorch 中创建数据加载器类时遇到问题

我正在使用 PyTorch 为孟加拉语数字分类构建一个神经网络。我在构建数据集类以使用数据加载器加载我的数据集时遇到困难。我有一个包含所有图像的文件夹(0-9 的数字)和一个包含 2 列的 CSV 文件,第一列包含图像的名称,第二列包含标签(0-9)。这是我的数据加载器类,它可能不会导致错误。

我创建了这个类的一个实例。

我已经定义了 rescale 和 to tensor 如下

将数据集拆分为测试和训练,并使用 torch.utils.data.DataLoader 创建训练加载器和验证加载器

神经网络是

我创建了这个类的一个实例并开始训练

这是我得到错误的地方

它指的是我在数据加载器中使用的 PIL Image。所以在我看来,这就是我做错了什么。

https://colab.research.google.com/drive/17XdP7gUoMNLxPCJ6PHEi3B09UQitzKyf?usp=sharing

这是我正在处理的笔记本。请帮我调试代码中的错误。

https://drive.google.com/open?id=1DznuHV9Fi5jVEbGdP-tg3ckmp5CNDOj1

这是我正在处理的数据集。

0 投票
1 回答
2062 浏览

neural-network - MNIST 数据集上的 Pytorch 转换

我目前有一个弱监督项目,我需要在数据集前面放置一个“掩码”。我现在的问题是我不知道该怎么做。让我用一些代码和图像进一步解释。

我正在使用必须以这种方式编辑的 MNIST 数据集。如您所见,中间的正方形被切掉了。下面的代码用于使用 for 循环编辑 MNIST。

但是,我目前不确定如何在数据加载器转换中使用它。数据加载器和转换的代码如下所示:

那么有没有一种直接的方法可以将转换应用于 中的完整数据集torchvision.transforms.Compose

0 投票
2 回答
162 浏览

python - 自定义数据集、数据加载器、采样器或其他?

我正在开展一个项目,该项目需要在非常大的图像数据集上训练 PyTorch 框架 NN。其中一些图像与问题完全无关,但这些不相关的图像并没有被标记为这样。但是,如果它们不相关,我可以使用一些指标来计算它们(例如,将所有像素值相加可以让我很好地了解哪些是相关图像,哪些不是)。我最理想的做法是拥有一个可以接收 Dataset 类的 Dataloader,并仅使用相关图像创建批次。Dataset 类只知道图像列表及其标签,Dataloader 将解释它正在制作批处理的图像是否相关,然后只会使用相关图像制作批处理。

将此应用于示例,假设我有一个黑白图像数据集。白色图像是无关紧要的,但它们没有这样标记。我希望能够从文件位置加载批次,并且这些批次只包含黑色图像。我可以在某个时候通过对所有像素求和并找到它等于 0 来过滤。

我想知道的是自定义数据集、数据加载器或采样器是否能够为我解决此任务?我已经编写了一个自定义数据集,它存储所有保存图像的目录,以及该目录中所有图像的列表,并且可以在getitem函数中返回带有标签的图像。我还应该在那里添加一些东西来过滤掉某些图像吗?还是应该在自定义 Dataloader 或 Sampler 中应用该过滤器?

谢谢!

0 投票
1 回答
85 浏览

sql-server - 使用 SQL 导入工具导入 Salesforce Dataloader CSV 时经常出现“潜在的数据丢失”错误

我使用他们的 Dataloader 工具从 Salesforce 导出了一个帐户列表。输出文件是 CSV 文件。我有我希望它导入到已经创建的表。我对所有字段都使用了 nvarchar(255),但是在我不断收到截断错误之后,我更改为 nvarchar(max)。

我正在使用 SQL 导入工具,并导入一个平面文件。我将其设置为 " 用于文本限定符,并用逗号分隔。一切看起来都很好。然后,当我去导入时,几乎每个字段都出现截断错误。

我回去让它建议类型,并让它读取整个文件。

我不断收到同样的错误。

我回去并将所有内容更改为长度为 255 的 DT_STR,然后我得到以下内容而不是截断错误:

我再次返回并将所有内容更改为流文本。它现在正在工作,但运行缓慢。之前花费不到一分钟的时间现在可能需要 2 小时。

仅供参考,我尝试将 csv 导入 Excel,但它要么切断前面的零,要么完全搞砸了解析。

0 投票
1 回答
1557 浏览

python - Python Dataset Class + PyTorch Dataloader:卡在__getitem__,Testing时如何获取Index、Label等?

我有一个,也许是小问题,但我现在被困了很长一段时间。希望有人可以帮助我。我目前正在使用我喜欢通过深度学习(CNN 网络)进行训练的 Kddcup99 数据集

我有一个包含 Panda Dataframe 的“数据集”类。因此我分成正常和验证数据集。到目前为止,没有问题。我将它加载到 Numpy 向量中,将其火炬传递到 Tensor,然后将其定向到 DataLoader。

数据集类有这两个重要的用于迭代的类:

不在类中的是 DataLoader 字符串:

在我的 Trainer Class 中,我有一个 for 循环,它应该遍历 Dataloader:

但它不会。我无法访问标签、索引等。

我现在的问题是:为什么? 如何通过 Dataloader 从给定的数据集中访问标签、索引?

谢谢大家的帮助!非常感谢。