“dataloader”的相关标签问题

0 投票

0 回答

149 浏览

image-processing - Pytorch - 推理时损失 0.000 和 keyerror

我的训练集包含 51000 个（3 通道）图像。我正在尝试从包含 2 列图像和标签的 csv 文件/数据帧中获取这些图像进行训练。例如：traindataset.loc[0][0] 表示'/kaggle/input/alaska2-image-steganalysis/UERD/00155.jpg' 这是第一个图像目录，traindataset.loc[0][1] 表示'1'这是该图像的标签，存在 2 个标签 (1,0)，因此这是一个二进制分类问题，但我无法弄清楚我的代码中是否存在任何错误。这是我的代码：

使用上面的代码我得到这个输出：

训练损失：0.0000 训练在 34m 53s 内完成

所以我的问题是为什么损失：0.0000

然后我尝试像这样进行测试集预测：

现在我得到这个错误：

2020-04-30T16:42:19.577

0 投票

1 回答

691 浏览

node.js - 猫鼬 findMany 查询与参考

我是猫鼬的新手，我真的没有找到任何参考，猫鼬如何populate处理 findMany 查询ref

例如，我有一个categories集合和一个products集合，因为产品可以分配给许多类别，这就是它们存在于 2 个不同集合中的原因。

现在，如果我在集合上调用findMany方法，并且猫鼬会按类别执行查找产品吗？或者将收集所有引用的产品 ID，并在一个查询中查询所有产品，就像这样做？categoriespopulateproductsdataloader

node.js mongodb mongoose dataloader

2020-05-07T08:10:48.550

0 投票

1 回答

177 浏览

python - Pytorch：使用 DataLoader 加载图像样本

我使用来自 torch.utils.data 的标准 DataLoader。我创建数据集类，然后以这种方式构建 DataLoader：

它运行完美，但数据集足够大 - 300k 图像。因此，使用 DataLoader 读取图像需要花费大量时间。所以在debug阶段搭建这么大的DataLoader实在是太可悲了！我只是想测试我的一些假设并想快速完成！我不需要为此加载整个数据集。

我正在尝试找到如何在不在整个数据集上构建 dataLoader 的情况下仅加载数据集的一小部分固定部分的方法？ 目前我所有的想法只是创建另一个文件夹，在此处复制部分图像并在其上使用管道。但我想，Pytorch 足够聪明，有一些内置方法可以从大数据集中加载部分图像。你能给我建议怎么做吗？

python python-3.x pytorch dataloader

2020-05-08T09:03:47.793

0 投票

2 回答

4578 浏览

python - Pytorch 的 dataloader shuffle 何时发生？

我已经多次使用 pytorch 数据加载器的 shuffle 选项。但我想知道这种洗牌何时发生以及它是否在迭代期间动态执行。以下面的代码为例：

当我们定义“namesTrainLoader”时，这是否意味着洗牌已经完成，接下来的迭代将基于固定的数据顺序？定义 namesTrainLoader 后，for 循环会不会有随机性？

我试图用一些特殊值替换一半的“batch_data”：

假设会有无限个 epoch，“模型”最终会看到“namesTrainLoader”中的所有数据吗？还是“namesTrainLoader”的一半数据实际上丢失给了“model”？

python machine-learning pytorch shuffle dataloader

2020-05-10T21:24:50.077

0 投票

1 回答

167 浏览

rdf - Blazegraph 数据加载器

我尝试将一些三元组导入 Blazegraph 数据库，而所有三元组 w/o 数据类型都被加载。

但是没有加载例如 ^^xsd:date 格式的三元组？！

有谁知道如何处理这个问题？

未加载的示例：

正在加载的示例（见第二行，语言标签也可以正常工作）：

该文件通过以下方式加载：

为什么不能通过 blazegraph 用户界面附加日期格式： http://localhost:9999/blazegraph/#update

rdf bulkloader dataloader blazegraph

2020-05-11T15:17:09.633

0 投票

0 回答

385 浏览

python - 在 PyTorch 中创建数据加载器类时遇到问题

我正在使用 PyTorch 为孟加拉语数字分类构建一个神经网络。我在构建数据集类以使用数据加载器加载我的数据集时遇到困难。我有一个包含所有图像的文件夹（0-9 的数字）和一个包含 2 列的 CSV 文件，第一列包含图像的名称，第二列包含标签（0-9）。这是我的数据加载器类，它可能不会导致错误。

我创建了这个类的一个实例。

我已经定义了 rescale 和 to tensor 如下

将数据集拆分为测试和训练，并使用 torch.utils.data.DataLoader 创建训练加载器和验证加载器

神经网络是

我创建了这个类的一个实例并开始训练

这是我得到错误的地方

它指的是我在数据加载器中使用的 PIL Image。所以在我看来，这就是我做错了什么。

https://colab.research.google.com/drive/17XdP7gUoMNLxPCJ6PHEi3B09UQitzKyf?usp=sharing

这是我正在处理的笔记本。请帮我调试代码中的错误。

https://drive.google.com/open?id=1DznuHV9Fi5jVEbGdP-tg3ckmp5CNDOj1

这是我正在处理的数据集。

python pytorch conv-neural-network adam dataloader

2020-05-15T06:40:03.463

0 投票

1 回答

2062 浏览

neural-network - MNIST 数据集上的 Pytorch 转换

我目前有一个弱监督项目，我需要在数据集前面放置一个“掩码”。我现在的问题是我不知道该怎么做。让我用一些代码和图像进一步解释。

我正在使用必须以这种方式编辑的 MNIST 数据集。如您所见，中间的正方形被切掉了。下面的代码用于使用 for 循环编辑 MNIST。

但是，我目前不确定如何在数据加载器转换中使用它。数据加载器和转换的代码如下所示：

那么有没有一种直接的方法可以将转换应用于中的完整数据集torchvision.transforms.Compose？

neural-network pytorch dataloader

2020-05-16T00:32:55.890

0 投票

2 回答

162 浏览

python - 自定义数据集、数据加载器、采样器或其他？

我正在开展一个项目，该项目需要在非常大的图像数据集上训练 PyTorch 框架 NN。其中一些图像与问题完全无关，但这些不相关的图像并没有被标记为这样。但是，如果它们不相关，我可以使用一些指标来计算它们（例如，将所有像素值相加可以让我很好地了解哪些是相关图像，哪些不是）。我最理想的做法是拥有一个可以接收 Dataset 类的 Dataloader，并仅使用相关图像创建批次。Dataset 类只知道图像列表及其标签，Dataloader 将解释它正在制作批处理的图像是否相关，然后只会使用相关图像制作批处理。

将此应用于示例，假设我有一个黑白图像数据集。白色图像是无关紧要的，但它们没有这样标记。我希望能够从文件位置加载批次，并且这些批次只包含黑色图像。我可以在某个时候通过对所有像素求和并找到它等于 0 来过滤。

我想知道的是自定义数据集、数据加载器或采样器是否能够为我解决此任务？我已经编写了一个自定义数据集，它存储所有保存图像的目录，以及该目录中所有图像的列表，并且可以在getitem函数中返回带有标签的图像。我还应该在那里添加一些东西来过滤掉某些图像吗？还是应该在自定义 Dataloader 或 Sampler 中应用该过滤器？

谢谢！

python pytorch dataloader

2020-05-18T06:23:34.947

0 投票

1 回答

85 浏览

sql-server - 使用 SQL 导入工具导入 Salesforce Dataloader CSV 时经常出现“潜在的数据丢失”错误

我使用他们的 Dataloader 工具从 Salesforce 导出了一个帐户列表。输出文件是 CSV 文件。我有我希望它导入到已经创建的表。我对所有字段都使用了 nvarchar(255)，但是在我不断收到截断错误之后，我更改为 nvarchar(max)。

我正在使用 SQL 导入工具，并导入一个平面文件。我将其设置为 " 用于文本限定符，并用逗号分隔。一切看起来都很好。然后，当我去导入时，几乎每个字段都出现截断错误。

我回去让它建议类型，并让它读取整个文件。

我不断收到同样的错误。

我回去并将所有内容更改为长度为 255 的 DT_STR，然后我得到以下内容而不是截断错误：

我再次返回并将所有内容更改为流文本。它现在正在工作，但运行缓慢。之前花费不到一分钟的时间现在可能需要 2 小时。

仅供参考，我尝试将 csv 导入 Excel，但它要么切断前面的零，要么完全搞砸了解析。

sql-server csv import salesforce dataloader

2020-05-18T10:50:13.613

0 投票

1 回答

1557 浏览

python - Python Dataset Class + PyTorch Dataloader：卡在getitem，Testing时如何获取Index、Label等？

我有一个，也许是小问题，但我现在被困了很长一段时间。希望有人可以帮助我。我目前正在使用我喜欢通过深度学习（CNN 网络）进行训练的 Kddcup99 数据集

我有一个包含 Panda Dataframe 的“数据集”类。因此我分成正常和验证数据集。到目前为止，没有问题。我将它加载到 Numpy 向量中，将其火炬传递到 Tensor，然后将其定向到 DataLoader。

数据集类有这两个重要的用于迭代的类：

不在类中的是 DataLoader 字符串：

在我的 Trainer Class 中，我有一个 for 循环，它应该遍历 Dataloader：

但它不会。我无法访问标签、索引等。

我现在的问题是：为什么？ 如何通过 Dataloader 从给定的数据集中访问标签、索引？

谢谢大家的帮助！非常感谢。

python machine-learning dataset pytorch dataloader

2020-05-18T11:40:55.893

问题标签 [dataloader]

Reference