17

在运行具有使用 tensorflow 2.0 的代码的 kubeflow 管道时。每个时期结束时显示以下错误

W tensorflow/core/kernels/data/generator_dataset_op.cc:103] 完成 GeneratorDataset 迭代器时发生错误:已取消:操作已取消

此外,经过一些时期后,它不会显示日志并显示此错误

此步骤处于失败状态,并显示以下消息:节点资源不足:内存。Container main 使用 100213872Ki,超过了它的请求 0。Container wait 使用了 25056Ki,超过了它的请求 0。

4

7 回答 7

5

就我而言,我不匹配batch_sizeandsteps_per_epoch

例如,

his = Test_model.fit_generator(datagen.flow(trainrancrop_images, trainrancrop_labels, batch_size=batchsize),
                               steps_per_epoch=len(trainrancrop_images)/batchsize,
                               validation_data=(test_images, test_labels),
                               epochs=1,
                               callbacks=[callback])

batch_sizedatagen.flow 中的必须对应steps_per_epochTest_model.fit_generator 中的(其实我在 上用错了值steps_per_epoch

我猜这是错误的情况之一。

结果,我认为当批量大小和步骤(迭代)的对应关系错误时会出现问题

当您通过除法获得步骤时,浮点数可能会成为问题......

检查有关此问题的代码。

祝你好运 :)

于 2020-03-05T17:07:57.170 回答
5

tensorflow从升级2.12.2为我解决了这个问题。我不必去tf-nightly版本。

于 2020-06-12T13:44:56.600 回答
3

这是由于 CUDA 和 Tensorflow 版本不兼容造成的。以下版本相互配合

张量流-GPU==2.0.0

张量流插件==0.6.0

nvidia/cuda:10.0-cudnn7-runtime

于 2020-02-25T05:20:36.200 回答
1

我也有同样的问题。人们声称变暖是多余的,并且已在 tf-nightly 中删除,请参见此处。但是每个时期的内存泄漏仍然存在。

于 2020-02-19T14:07:39.393 回答
0

我尝试了以下步骤,它适用于我的情况

conda install tensorflow=2.0.0
conda install -c conda-forge keras=2.3.0
于 2021-05-11T21:40:10.097 回答
0

要解决问题,您可以添加workers=1.model.fit(...)

于 2021-01-25T08:19:02.207 回答
0

就我而言:我安装了 tf-nightly。现在它正在工作,虽然我是 tensorflow 的新手。我跟着这个链接

你可以试试。

于 2020-02-11T09:58:28.983 回答