我已经构建了一个 Jupyter 笔记本,它将一个 Jupyter 笔记本作为管道的一个组件部署到 Kubeflow 管道服务中。我想知道是否有办法为部署笔记本的 ContainerOp 指定 CPU 和内存的数量。
目标:当我打开并读取 tar.gz 文件的内容时,让 cpu 和 mem 在 yaml 文件中显示为参数
我尝试使用多处理库,但我发布的代码示例(隐藏的路径和图像)看起来太愚蠢了,无法正确。而且这不是我老板想要的
import kfp
import random
import string
if not os.path.exists(tmp_dir):
os.makedirs(tmp_dir)
def demo_op(input_notebook, output_notebook, name):
return dsl.ContainerOp(
name='papermill',
image=image,
command=['sh', '-c'],
pvolumes={"/home/jovyan": dsl.PipelineVolume(pvc="efs-storage",name='efs-storage')},
arguments=['papermill $0 $1 -p name $2', input_notebook, output_notebook, name]
)
@dsl.pipeline(
name='papermill demo',
description='executing notebooks demo'
)
def pipeline_func(output_notebook,
name,
input_notebook='abcd'): #example of path
demo_task = demo_op(input_notebook, output_notebook, name)
filename = tmp_dir + '/demo{dt:%Y%m%d_%H%M%S}.pipeline.tar.gz'.format(dt=datetime.datetime.now())
compiler.Compiler().compile(pipeline_func, filename)
client = kfp.Client()
experiment = client.create_experiment('papermill_volume_test')
arguments = {'output_notebook': 'abcd', #example
'name': 'demo_test'} # Output_notebook prints: demo_test
run_name = 'papermill demo run'
run_result = client.run_pipeline(experiment.id, run_name, filename, arguments)
p = multiprocessing.Process(target=run_func, args=(tmp_dr,
image, inp_nb, out_np, mem))
processes.append(p)
p.start()
for d in processes:
d.join()
这不会给出 yaml 文件中使用的 cpu 数量