1

给定一个dask.delayed任务,我想获取该任务的所有输入(父母)的列表。

例如,

from dask import delayed

@delayed
def inc(x):
    return x + 1

def inc_list(x):
    return [inc(n) for n in x]

task = delayed(sum)(inc_list([1,2,3]))
task.parents ???

产生下图。我怎样才能得到这样的父母sum#3,它会产生一个列表[inc#1, inc#2, inc#3]

在此处输入图像描述

4

1 回答 1

1

延迟对象不存储对其输入的引用,但是如果您愿意深入研究任务图并手动重建延迟对象,则可以取回这些引用。

特别是,您可以.dask使用延迟对象的键对属性进行索引

>>> task.dask[task.key]
(<function sum>,
 ['inc-9d0913ab-d76a-4eb7-a804-51278882b310',
  'inc-2f0e385e-beef-45e5-b47a-9cf5d02e2c1f',
  'inc-b72ce20f-d0c4-4c50-9a88-74e3ef926dd0'])

这显示了任务定义(参见 Dask 的图形规范

这些'inc-...'值是任务图中的其他键。dask.core.get_dependencies您可以使用该函数获取依赖项

>>> from dask.core import get_dependencies
>>> get_dependencies(task.dask, task.key)
{'inc-2f0e385e-beef-45e5-b47a-9cf5d02e2c1f',
 'inc-9d0913ab-d76a-4eb7-a804-51278882b310',
 'inc-b72ce20f-d0c4-4c50-9a88-74e3ef926dd0'}

如果您愿意,您可以从这里制作新的延迟对象

>>> from dask.delayed import Delayed
>>> parents = [Delayed(key, task.dask) for key in get_dependencies(task.dask, task.key)]
[Delayed('inc-b72ce20f-d0c4-4c50-9a88-74e3ef926dd0'),
 Delayed('inc-2f0e385e-beef-45e5-b47a-9cf5d02e2c1f'),
 Delayed('inc-9d0913ab-d76a-4eb7-a804-51278882b310')]
于 2017-12-01T17:20:53.517 回答