我正在用 Python3.5 编写一个程序,它读取一个数据集并做一些事情(如果你熟悉的话,它是 DICOM 数据)。它用:
- 大小为 (512,512,141) 或更大的大型数组。
- 许多小的元数据(许多单个数据条目)。
现在我的程序有许多不同的组件,它们都将使用相同的数据集。我的问题是处理这些数据的最佳做法是什么?我是否:
- 通过内部变量传递数据?我觉得这是对内存/空间的低效使用,因为每次我必须将数据向下传递(而不破坏它的来源)它是在不必要地添加资源?
- 使用文件存储系统?当我这么说时,我指的是诸如 SQL、HDF5 甚至是 python 中的值字典之类的东西。
- 每次需要时读取数据?因此,例如我必须导入库、加载文件、在文件中搜索 var、存储 var 并再次关闭文件。似乎相当乏味。
哪种方法最好?我不会访问这些数据一次或两次,而是访问 20 多次。有没有我不知道我应该使用的方法?
在此先感谢您,我重视您的帮助(以及必要时的批评),以始终提高自己作为程序员和人类的水平。