我对使用 Python 进行数据分析相对较新,我正在尝试确定读取数据的最实用和最有用的方法,以便我可以索引它并在计算中使用它。我有许多 np.arrays 形式的图像,每个图像都有一组相应的数据,例如 x 和 y 坐标、大小、过滤器编号等。我只想确保每组数据与其对应的图像。我的第一个想法是将数据粘贴到数据类实例的 np.array 中(其中数组的每个元素都是包含我所有数据的实例)。我的第二个想法是熊猫数据框。
我的直觉告诉我,使用数据框更有意义。np.arrays 是否很好地存储在数据帧中?每种方法的优点/缺点是什么?如果我需要经常从它们中提取数据,并且我总是需要确保数据可以与其对应的图像匹配,那么哪种方法最好?
我必须读入哪些变量:x_coord - float,y_coord - float,filter - int,image - np.ndarray。
我一直在尝试将图像数组粘贴到 pandas 数据框中,但是当使用.loc
它进行索引时,运行 Jupyter Notebook 单元格的速度非常慢。使用 . 填充数据框也很慢.from_dict()
。我猜数据框不是用来保存 np.ndarrays 的吗?
我最担心的是簿记和索引的易用性 - 我可以做些什么来始终确保我可以检索相应图像的元数据?我的数据应该采用什么形式,以便我可以轻松提取图像及其元数据,或具有相同过滤器编号的所有图像等。