问题标签 [dataloader]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
image-processing - Pytorch - 推理时损失 0.000 和 keyerror
我的训练集包含 51000 个(3 通道)图像。我正在尝试从包含 2 列图像和标签的 csv 文件/数据帧中获取这些图像进行训练。例如:traindataset.loc[0][0] 表示'/kaggle/input/alaska2-image-steganalysis/UERD/00155.jpg' 这是第一个图像目录,traindataset.loc[0][1] 表示'1'这是该图像的标签,存在 2 个标签 (1,0),因此这是一个二进制分类问题,但我无法弄清楚我的代码中是否存在任何错误。这是我的代码:
使用上面的代码我得到这个输出:
训练损失:0.0000 训练在 34m 53s 内完成
所以我的问题是为什么损失:0.0000
然后我尝试像这样进行测试集预测:
现在我得到这个错误:
node.js - 猫鼬 findMany 查询与参考
我是猫鼬的新手,我真的没有找到任何参考,猫鼬如何populate
处理 findMany 查询ref
例如,我有一个categories
集合和一个products
集合,因为产品可以分配给许多类别,这就是它们存在于 2 个不同集合中的原因。
现在,如果我在集合上调用findMany
方法,并且猫鼬会按类别执行查找产品吗?或者将收集所有引用的产品 ID,并在一个查询中查询所有产品,就像这样做?categories
populate
products
dataloader
python - Pytorch:使用 DataLoader 加载图像样本
我使用来自 torch.utils.data 的标准 DataLoader。我创建数据集类,然后以这种方式构建 DataLoader:
它运行完美,但数据集足够大 - 300k 图像。因此,使用 DataLoader 读取图像需要花费大量时间。所以在debug阶段搭建这么大的DataLoader实在是太可悲了!我只是想测试我的一些假设并想快速完成!我不需要为此加载整个数据集。
我正在尝试找到如何在不在整个数据集上构建 dataLoader 的情况下仅加载数据集的一小部分固定部分的方法? 目前我所有的想法只是创建另一个文件夹,在此处复制部分图像并在其上使用管道。但我想,Pytorch 足够聪明,有一些内置方法可以从大数据集中加载部分图像。你能给我建议怎么做吗?
python - Pytorch 的 dataloader shuffle 何时发生?
我已经多次使用 pytorch 数据加载器的 shuffle 选项。但我想知道这种洗牌何时发生以及它是否在迭代期间动态执行。以下面的代码为例:
当我们定义“namesTrainLoader”时,这是否意味着洗牌已经完成,接下来的迭代将基于固定的数据顺序?定义 namesTrainLoader 后,for 循环会不会有随机性?
我试图用一些特殊值替换一半的“batch_data”:
假设会有无限个 epoch,“模型”最终会看到“namesTrainLoader”中的所有数据吗?还是“namesTrainLoader”的一半数据实际上丢失给了“model”?
rdf - Blazegraph 数据加载器
我尝试将一些三元组导入 Blazegraph 数据库,而所有三元组 w/o 数据类型都被加载。
但是没有加载例如 ^^xsd:date 格式的三元组?!
有谁知道如何处理这个问题?
未加载的示例:
正在加载的示例(见第二行,语言标签也可以正常工作):
该文件通过以下方式加载:
为什么不能通过 blazegraph 用户界面附加日期格式: http://localhost:9999/blazegraph/#update
python - 在 PyTorch 中创建数据加载器类时遇到问题
我正在使用 PyTorch 为孟加拉语数字分类构建一个神经网络。我在构建数据集类以使用数据加载器加载我的数据集时遇到困难。我有一个包含所有图像的文件夹(0-9 的数字)和一个包含 2 列的 CSV 文件,第一列包含图像的名称,第二列包含标签(0-9)。这是我的数据加载器类,它可能不会导致错误。
我创建了这个类的一个实例。
我已经定义了 rescale 和 to tensor 如下
将数据集拆分为测试和训练,并使用 torch.utils.data.DataLoader 创建训练加载器和验证加载器
神经网络是
我创建了这个类的一个实例并开始训练
这是我得到错误的地方
它指的是我在数据加载器中使用的 PIL Image。所以在我看来,这就是我做错了什么。
https://colab.research.google.com/drive/17XdP7gUoMNLxPCJ6PHEi3B09UQitzKyf?usp=sharing
这是我正在处理的笔记本。请帮我调试代码中的错误。
https://drive.google.com/open?id=1DznuHV9Fi5jVEbGdP-tg3ckmp5CNDOj1
这是我正在处理的数据集。
neural-network - MNIST 数据集上的 Pytorch 转换
我目前有一个弱监督项目,我需要在数据集前面放置一个“掩码”。我现在的问题是我不知道该怎么做。让我用一些代码和图像进一步解释。
我正在使用必须以这种方式编辑的 MNIST 数据集。如您所见,中间的正方形被切掉了。下面的代码用于使用 for 循环编辑 MNIST。
但是,我目前不确定如何在数据加载器转换中使用它。数据加载器和转换的代码如下所示:
那么有没有一种直接的方法可以将转换应用于 中的完整数据集torchvision.transforms.Compose
?
python - 自定义数据集、数据加载器、采样器或其他?
我正在开展一个项目,该项目需要在非常大的图像数据集上训练 PyTorch 框架 NN。其中一些图像与问题完全无关,但这些不相关的图像并没有被标记为这样。但是,如果它们不相关,我可以使用一些指标来计算它们(例如,将所有像素值相加可以让我很好地了解哪些是相关图像,哪些不是)。我最理想的做法是拥有一个可以接收 Dataset 类的 Dataloader,并仅使用相关图像创建批次。Dataset 类只知道图像列表及其标签,Dataloader 将解释它正在制作批处理的图像是否相关,然后只会使用相关图像制作批处理。
将此应用于示例,假设我有一个黑白图像数据集。白色图像是无关紧要的,但它们没有这样标记。我希望能够从文件位置加载批次,并且这些批次只包含黑色图像。我可以在某个时候通过对所有像素求和并找到它等于 0 来过滤。
我想知道的是自定义数据集、数据加载器或采样器是否能够为我解决此任务?我已经编写了一个自定义数据集,它存储所有保存图像的目录,以及该目录中所有图像的列表,并且可以在getitem函数中返回带有标签的图像。我还应该在那里添加一些东西来过滤掉某些图像吗?还是应该在自定义 Dataloader 或 Sampler 中应用该过滤器?
谢谢!
sql-server - 使用 SQL 导入工具导入 Salesforce Dataloader CSV 时经常出现“潜在的数据丢失”错误
我使用他们的 Dataloader 工具从 Salesforce 导出了一个帐户列表。输出文件是 CSV 文件。我有我希望它导入到已经创建的表。我对所有字段都使用了 nvarchar(255),但是在我不断收到截断错误之后,我更改为 nvarchar(max)。
我正在使用 SQL 导入工具,并导入一个平面文件。我将其设置为 " 用于文本限定符,并用逗号分隔。一切看起来都很好。然后,当我去导入时,几乎每个字段都出现截断错误。
我回去让它建议类型,并让它读取整个文件。
我不断收到同样的错误。
我回去并将所有内容更改为长度为 255 的 DT_STR,然后我得到以下内容而不是截断错误:
我再次返回并将所有内容更改为流文本。它现在正在工作,但运行缓慢。之前花费不到一分钟的时间现在可能需要 2 小时。
仅供参考,我尝试将 csv 导入 Excel,但它要么切断前面的零,要么完全搞砸了解析。
python - Python Dataset Class + PyTorch Dataloader:卡在__getitem__,Testing时如何获取Index、Label等?
我有一个,也许是小问题,但我现在被困了很长一段时间。希望有人可以帮助我。我目前正在使用我喜欢通过深度学习(CNN 网络)进行训练的 Kddcup99 数据集
我有一个包含 Panda Dataframe 的“数据集”类。因此我分成正常和验证数据集。到目前为止,没有问题。我将它加载到 Numpy 向量中,将其火炬传递到 Tensor,然后将其定向到 DataLoader。
数据集类有这两个重要的用于迭代的类:
不在类中的是 DataLoader 字符串:
在我的 Trainer Class 中,我有一个 for 循环,它应该遍历 Dataloader:
但它不会。我无法访问标签、索引等。
我现在的问题是:为什么? 如何通过 Dataloader 从给定的数据集中访问标签、索引?
谢谢大家的帮助!非常感谢。