python - 在 Python 上加载大数据

Question

我对数据科学还很陌生，大约两个月前才开始使用 python。我一直在尝试做一个有趣的 Kaggle 比赛（catsVsDogs）来尝试学习沿途的东西。但是，我在第一步就停了下来。问题是有一个训练集，其中包含大约 25000 张猫和狗的 .jpg 图像，总目录大小约为 800 MB。每当我尝试将目录加载到 python 中并将所有图像保存在一个矩阵中（比如我们有 100 个（300,200）大小的图像，我想将它们保存在一个 100*（60000）大小的矩阵中）我得到一个内存错误或系统停止处理。我在mac上使用canopy。我一直在尝试在互联网上阅读很多内容，并了解人们如何处理这些大图像，但已经一个星期了，我仍然无法找不到任何好的来源。如果有人帮助我或者只是给我发送一个描述情况的链接，我将非常感激。这是 Kaggle 比赛的链接（你可以看到没有奖品，只是为了学习）： https://www.kaggle.com/c/dogs-vs-cats/data

问题是我如何设法使用树冠将这个大数据集加载到 python 中并开始训练神经网络。或者通常如何在没有内存错误的情况下在单台计算机上处理大数据集。

score 2 · Accepted Answer

我建议对您希望阅读的项目进行索引（目录列表）。接下来只阅读第一个项目，仅使用该项目进行训练，从内存中删除该项目，继续下一个项目，然后重复。在任何给定时间，您都不应该需要更多的内存。

python - 在 Python 上加载大数据

1 回答 1

Related

Reference