-1

我对数据科学还很陌生,大约两个月前才开始使用 python。我一直在尝试做一个有趣的 Kaggle 比赛(catsVsDogs)来尝试学习沿途的东西。但是,我在第一步就停了下来。问题是有一个训练集,其中包含大约 25000 张猫和狗的 .jpg 图像,总目录大小约为 800 MB。每当我尝试将目录加载到 python 中并将所有图像保存在一个矩阵中(比如我们有 100 个(300,200)大小的图像,我想将它们保存在一个 100*(60000)大小的矩阵中)我得到一个内存错误或系统停止处理。我在mac上使用canopy。我一直在尝试在互联网上阅读很多内容,并了解人们如何处理这些大图像,但已经一个星期了,我仍然无法 找不到任何好的来源。如果有人帮助我或者只是给我发送一个描述情况的链接,我将非常感激。这是 Kaggle 比赛的链接(你可以看到没有奖品,只是为了学习): https://www.kaggle.com/c/dogs-vs-cats/data

问题是我如何设法使用树冠将这个大数据集加载到 python 中并开始训练神经网络。或者通常如何在没有内存错误的情况下在单台计算机上处​​理大数据集。

4

1 回答 1

2

我建议对您希望阅读的项目进行索引(目录列表)。接下来只阅读第一个项目,仅使用该项目进行训练,从内存中删除该项目,继续下一个项目,然后重复。在任何给定时间,您都不应该需要更多的内存。

于 2013-10-20T15:41:03.207 回答