问题标签 [checkpointing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1453 浏览

java - Apache Flink 中保存的默认检查点在哪里?

我是 Apache Flink 的新手,我正在浏览 Apache Flink 的示例。我发现如果发生故障,Flink 能够从检查点恢复流处理。

现在,我的问题是 Flink 默认将检查点保存在哪里?

任何帮助表示赞赏!

0 投票
1 回答
1890 浏览

apache-flink - Flink 恰好一次 - sink 的检查点和屏障确认

我有一个带有接收器的 Flink 作业,它将数据写入 MongoDB。接收器是RichSinkFunction.

启用外部检查点。间隔为 5000 磨,方案为 EXACTLY_ONCE。

  • Flink 1.3 版,
  • Kafka(源主题)0.9.0

我无法升级到TwoPhaseCommitSinkFlink 1.4。

我有几个疑问

  1. 接收器在哪个时间点确认检查点屏障,在调用函数开始时还是在调用完成时?意味着它在确认障碍之前等待持久(保存在 MongoDB 中)响应?
  2. 如果提交 checkpoint 是由异步线程完成的,那么 Flink 怎么能保证在作业失败的情况下只执行一次呢?如果接收器将数据保存到 MongoDB 但未提交检查点怎么办?我认为这最终会在重新启动时出现重复数据。
  3. 当我从 Flink 仪表板取消作业时,Flink 会完成异步检查点线程以完成还是硬 kill -9 调用?
0 投票
1 回答
315 浏览

tensorflow - tf.train.MonitoredTrainingSession 中的 tf.train.CheckpointSaverHook 是否会在检查点或异步完成时阻止训练?

我是 TensorFlow 的新手。我目前很想跟踪检查点的 IO 时间和带宽(最好是检查点训练过程中所用 IO 时间的百分比),这是由高级提供的内部检查点机制执行的tf.train.MonitoredTrainingSession,可以通过添加一段 tf.train.CheckpointSaverHook时间来初始化tf.train.MonitoredTrainingSession.

我正在考虑使用一个tf.train.CheckpointSaverListener(即使用before_saveafter_save方法)来记录时间和跟踪IO。但是我有一个问题,我正在考虑的这种日志记录技术会给我一个适当的百分比计算(即Time taken for checkpointing IO / Time taken for Training * 100%)吗?

我怀疑,这个检查点是通过与训练不同的线程异步完成的。我一直在研究 TensorFlow 代码以找出答案,但我认为在这里提出这个问题可以加速我的探索。

我愿意接受任何关于使用任何其他替代技术的建议(例如使用 TensorBoard、IO 分析工具等)

0 投票
1 回答
5885 浏览

jenkins - 声明式 Jenkins 流水线中的检查点

0 投票
2 回答
320 浏览

python-3.x - 在 VGG-16 上停止和重新开始训练

我正在使用预训练的 VGG-16 模型进行图像分类。我正在添加自定义最后一层,因为我的分类类的数量是 10。我正在为模型训练 200 个时期。

我的问题是:如果我在某个时期随机停止(通过关闭 python 窗口)训练,有什么办法吗?比如说没有。50 和从那里恢复?我已经阅读了有关保存和重新加载模型的信息,但我的理解是这仅适用于我们的自定义模型,而不适用于 VGG-16 等预训练模型。

0 投票
0 回答
75 浏览

apache-spark - Kafka 代理的 Spark 结构化流式更改 - 对检查点的影响

我们有一个使用内部管理的 Kafka 在生产中运行的 spark 结构化流应用程序(让我们称之为kafka-inhouse

我们决定迁移到aiven kafka cloud.

假设:

  1. 我们消费来自 的所有消息kafka-inhouse,然后将新消息发布到aiven kafka cloud

  2. 我们存储 Kafka 消息(使用 spark 流应用程序)的 S3 中的pathcheckpoint没有改变。

问题:

Spark 结构化流是否会无缝管理 Kafka 代理中的变化,尤其是在checkpointing我们迁移之后?

0 投票
4 回答
11788 浏览

python-3.x - Keras 回调不断跳过保存检查点,声称缺少 val_acc

我将运行一些更大的模型并想尝试中间结果。

因此,我尝试在每个 epoch 之后使用检查点来保存最佳模型。

这是我的代码:

但是在第一个时代之后我仍然收到警告:

添加metrics=['accuracy']到模型中的是其他 SO 问题(例如Unable to save weights while using pre-trained VGG16 model)解决方案,但这里的错误仍然存​​在。

0 投票
1 回答
448 浏览

tensorflow - 通过 import_meta_graph 加载元图时出现 ImageProjectiveTransformV2 错误

我正在尝试使用加载训练网络“name.ckpt-1.meta”的元图,tf.train.import_meta_graph("./name.ckpt-1.meta") 但出现以下错误:

我不明白原因,也没有在其他地方看到同样的东西,我不确定是因为 tensorflow 版本或其他原因。

0 投票
1 回答
1414 浏览

python-3.x - 保存和加载检查点 pytorch

我制作一个模型并将配置保存为:

然后我想加载这个配置:

当我尝试时,这是错误:

我哪里做错了?

提前谢谢

0 投票
1 回答
262 浏览

apache-spark - Spark Scala 检查点数据集在操作后显示 .isCheckpointed = false 但已写入目录

似乎有一些关于此的帖子,但似乎没有人回答我的理解。

以下代码在 DataBricks 上运行:

添加了各种改进:

返回:

问题一:

ds.rdd.isCheckpointedds2.rdd.isCheckpointed都返回False即使计数我有一个非懒惰的情况。为什么,特别是 ../loc 7 & 10 是用(部分)文件编写的?我们还可以看到 ReliableCheckPoint!

没有很好地解释整个概念。试图解决这个问题。

问题 2 - 次要问题:

最新版本的 Spark 2.4 是否真的需要缓存?ds 上的新分支,如果不缓存,会导致重新计算还是现在更好?不使用检查点数据似乎很奇怪,或者我们可以说 Spark 并不真正知道什么更好?

从高性能 Spark 我得到的混合印象是检查点不是那么推荐,但又是这样。