1

我有一个 dask 数据框,其中包含列中的图像路径(称为 img_paths)。我想要在接下来的步骤中使用这些图像路径将图像加载到另一列(称为img_loaded)中,然后应用一些预处理功能。

但是,在加载(或图像读取)过程中,我总是得到不同的结果,包括一次延迟包装 imread 函数,另一次正确加载图像(我可以看到数组)和其余时间:FileNotFoundError.

除了以下示例之外,我还使用了map_partitions函数,但除了没有数组之外,我也得到了类似的输出。最后,我想使用map_partitions函数而不是apply函数。

以下是我的代码和有关问题的描述:

import pandas as pd
import dask
import dask.dataframe as dd
from skimage.io import imread

imgs = ['https://cdn.sstatic.net/Sites/stackoverflow/company/img/logos/so/so-logo.png?v=9c558ec15d8a'] * 42

# create a pandas dataframe using image paths
df = pd.DataFrame({"img_paths": imgs})

# convert it into dask dataframe
ddf = dd.from_pandas(df, npartitions=2)

# convert imread function as delayed
delayed_imread = dask.delayed(imread, pure=True)

第一次尝试:使用 lambda 函数并将延迟imread应用于每个单元格

ddf["img_loaded"] = ddf.images.apply(lambda x: delayed_imread(x))
ddf.compute()

在这里,我得到的是imread使用该compute()方法时对延迟函数的包装。我不懂为什么?以下是输出:

在此处输入图像描述

第二次尝试:不使用 lambda 函数

ddf["img_loaded"] = ddf.images.apply(delayed_imread)
ddf.compute()

这已经奏效了!至少,我可以将加载的图像视为数组。但是,我真的不明白为什么?为什么这与第一个解决方案不同(即使用 lambda 函数)以下是输出:

在此处输入图像描述

第三次尝试:使用/不使用 lambda 函数和不使用延迟imread

ddf["load"] = ddf.images.apply(imread) # or, lambda x: imread(x)
ddf.compute()

在这里,再次只是为了实验,我没有使用延迟imread函数,而是简单地使用skimage.io.imread函数。而且,我尝试过使用和不使用 lambda 函数。在每一次,我得到了FileNotFoundError。我没有得到这个。为什么使用非延迟读取功能时找不到图像路径(尽管它们是正确的)?

除了罗纳德的回答,如何使用 map_partitions 功能:

ddf["img_loaded"] = ddf.map_partitions(lambda df: df.images.apply(lambda x: imread(x)), meta=("images", np.uint8)).compute()
ddf.compute()
4

1 回答 1

2

解决方案

import pandas as pd
import dask
import dask.dataframe as dd
import numpy as np
from skimage.io import imread

imgs = ['https://cdn.sstatic.net/Sites/stackoverflow/company/img/logos/so/so-logo.png?v=9c558ec15d8a'] * 4

# create a pandas dataframe using image paths
df = pd.DataFrame({"img_paths": imgs})

# convert it into dask dataframe
ddf = dd.from_pandas(df, npartitions=2)

# convert imread function as delayed
delayed_imread = dask.delayed(imread, pure=True)

# give dask information about the function output type
ddf['img_paths'].apply(imread, meta=('img_loaded', np.uint8)).compute()

# OR turn it into dask.dealayed, which infers output type `object`
ddf['img_paths'].apply(delayed_imread).compute()

说明

如果您确实尝试应用该print函数,而无需计算,您会看到代码的原因FileNotFoundErrorddf.images.apply(imread).compute()

ddf['img_paths'].apply(print)

输出:

> foo
> foo

当您将apply函数添加到图形时,Dask 会遍历它的字符串foo以推断输出的类型 =>imread试图打开名为foo.

为了更好地理解,我鼓励您尝试:

ddf.apply(print, axis=1)

并尝试预测打印的内容。

延迟后的细胞.compute()

原因是apply需要一个函数引用,然后调用它。通过创建调用延迟函数的 lambda 函数,您基本上是在双重延迟函数。

于 2019-06-17T14:51:11.147 回答