我有一个 dask 数据框,其中包含列中的图像路径(称为 img_paths)。我想要在接下来的步骤中使用这些图像路径将图像加载到另一列(称为img_loaded
)中,然后应用一些预处理功能。
但是,在加载(或图像读取)过程中,我总是得到不同的结果,包括一次延迟包装 imread 函数,另一次正确加载图像(我可以看到数组)和其余时间:FileNotFoundError
.
除了以下示例之外,我还使用了map_partitions
函数,但除了没有数组之外,我也得到了类似的输出。最后,我想使用map_partitions
函数而不是apply
函数。
以下是我的代码和有关问题的描述:
import pandas as pd
import dask
import dask.dataframe as dd
from skimage.io import imread
imgs = ['https://cdn.sstatic.net/Sites/stackoverflow/company/img/logos/so/so-logo.png?v=9c558ec15d8a'] * 42
# create a pandas dataframe using image paths
df = pd.DataFrame({"img_paths": imgs})
# convert it into dask dataframe
ddf = dd.from_pandas(df, npartitions=2)
# convert imread function as delayed
delayed_imread = dask.delayed(imread, pure=True)
第一次尝试:使用 lambda 函数并将延迟imread
应用于每个单元格
ddf["img_loaded"] = ddf.images.apply(lambda x: delayed_imread(x))
ddf.compute()
在这里,我得到的是imread
使用该compute()
方法时对延迟函数的包装。我不懂为什么?以下是输出:
第二次尝试:不使用 lambda 函数
ddf["img_loaded"] = ddf.images.apply(delayed_imread)
ddf.compute()
这已经奏效了!至少,我可以将加载的图像视为数组。但是,我真的不明白为什么?为什么这与第一个解决方案不同(即使用 lambda 函数)以下是输出:
第三次尝试:使用/不使用 lambda 函数和不使用延迟imread
。
ddf["load"] = ddf.images.apply(imread) # or, lambda x: imread(x)
ddf.compute()
在这里,再次只是为了实验,我没有使用延迟imread
函数,而是简单地使用skimage.io.imread
函数。而且,我尝试过使用和不使用 lambda 函数。在每一次,我得到了FileNotFoundError
。我没有得到这个。为什么使用非延迟读取功能时找不到图像路径(尽管它们是正确的)?
除了罗纳德的回答,如何使用 map_partitions 功能:
ddf["img_loaded"] = ddf.map_partitions(lambda df: df.images.apply(lambda x: imread(x)), meta=("images", np.uint8)).compute()
ddf.compute()