问题标签 [checkpointing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

95 问题

0 投票

2 回答

1453 浏览

java - Apache Flink 中保存的默认检查点在哪里？

我是 Apache Flink 的新手，我正在浏览 Apache Flink 的示例。我发现如果发生故障，Flink 能够从检查点恢复流处理。

现在，我的问题是 Flink 默认将检查点保存在哪里？

任何帮助表示赞赏！

2018-05-13T15:46:47.817

0 投票

1 回答

1890 浏览

apache-flink - Flink 恰好一次 - sink 的检查点和屏障确认

我有一个带有接收器的 Flink 作业，它将数据写入 MongoDB。接收器是RichSinkFunction.

启用外部检查点。间隔为 5000 磨，方案为 EXACTLY_ONCE。

Flink 1.3 版，
Kafka（源主题）0.9.0

我无法升级到TwoPhaseCommitSinkFlink 1.4。

我有几个疑问

接收器在哪个时间点确认检查点屏障，在调用函数开始时还是在调用完成时？意味着它在确认障碍之前等待持久（保存在 MongoDB 中）响应？
如果提交 checkpoint 是由异步线程完成的，那么 Flink 怎么能保证在作业失败的情况下只执行一次呢？如果接收器将数据保存到 MongoDB 但未提交检查点怎么办？我认为这最终会在重新启动时出现重复数据。
当我从 Flink 仪表板取消作业时，Flink 会完成异步检查点线程以完成还是硬 kill -9 调用？

apache-flink flink-streaming checkpointing

2018-05-31T01:53:26.797

0 投票

1 回答

315 浏览

tensorflow - tf.train.MonitoredTrainingSession 中的 tf.train.CheckpointSaverHook 是否会在检查点或异步完成时阻止训练？

我是 TensorFlow 的新手。我目前很想跟踪检查点的 IO 时间和带宽（最好是检查点训练过程中所用 IO 时间的百分比），这是由高级提供的内部检查点机制执行的tf.train.MonitoredTrainingSession，可以通过添加一段 tf.train.CheckpointSaverHook时间来初始化tf.train.MonitoredTrainingSession.

我正在考虑使用一个tf.train.CheckpointSaverListener（即使用before_save和after_save方法）来记录时间和跟踪IO。但是我有一个问题，我正在考虑的这种日志记录技术会给我一个适当的百分比计算（即Time taken for checkpointing IO / Time taken for Training * 100%）吗？

我怀疑，这个检查点是通过与训练不同的线程异步完成的。我一直在研究 TensorFlow 代码以找出答案，但我认为在这里提出这个问题可以加速我的探索。

我愿意接受任何关于使用任何其他替代技术的建议（例如使用 TensorBoard、IO 分析工具等）

tensorflow io profiling checkpointing

2018-07-07T00:08:02.630

0 投票

1 回答

5885 浏览

jenkins - 声明式 Jenkins 流水线中的检查点

jenkins jenkins-pipeline cloudbees checkpointing

2018-08-08T18:44:46.980

0 投票

2 回答

320 浏览

python-3.x - 在 VGG-16 上停止和重新开始训练

我正在使用预训练的 VGG-16 模型进行图像分类。我正在添加自定义最后一层，因为我的分类类的数量是 10。我正在为模型训练 200 个时期。

我的问题是：如果我在某个时期随机停止（通过关闭 python 窗口）训练，有什么办法吗？比如说没有。50 和从那里恢复？我已经阅读了有关保存和重新加载模型的信息，但我的理解是这仅适用于我们的自定义模型，而不适用于 VGG-16 等预训练模型。

python-3.x machine-learning keras checkpointing vgg-net

2018-08-24T16:49:23.607

0 投票

0 回答

75 浏览

apache-spark - Kafka 代理的 Spark 结构化流式更改 - 对检查点的影响

我们有一个使用内部管理的 Kafka 在生产中运行的 spark 结构化流应用程序（让我们称之为kafka-inhouse）

我们决定迁移到aiven kafka cloud.

假设：

我们消费来自的所有消息kafka-inhouse，然后将新消息发布到aiven kafka cloud
我们存储 Kafka 消息（使用 spark 流应用程序）的 S3 中的path和checkpoint没有改变。

问题：

Spark 结构化流是否会无缝管理 Kafka 代理中的变化，尤其是在checkpointing我们迁移之后？

apache-spark apache-kafka spark-structured-streaming checkpointing

2018-10-10T06:49:17.150

0 投票

4 回答

11788 浏览

python-3.x - Keras 回调不断跳过保存检查点，声称缺少 val_acc

我将运行一些更大的模型并想尝试中间结果。

因此，我尝试在每个 epoch 之后使用检查点来保存最佳模型。

这是我的代码：

但是在第一个时代之后我仍然收到警告：

添加metrics=['accuracy']到模型中的是其他 SO 问题（例如Unable to save weights while using pre-trained VGG16 model）解决方案，但这里的错误仍然存在。

python-3.x keras checkpointing

2018-10-12T09:36:43.803

0 投票

1 回答

448 浏览

tensorflow - 通过 import_meta_graph 加载元图时出现 ImageProjectiveTransformV2 错误

我正在尝试使用加载训练网络“name.ckpt-1.meta”的元图，tf.train.import_meta_graph("./name.ckpt-1.meta") 但出现以下错误：

我不明白原因，也没有在其他地方看到同样的东西，我不确定是因为 tensorflow 版本或其他原因。

tensorflow checkpointing

2018-11-21T09:57:17.003

0 投票

1 回答

1414 浏览

python-3.x - 保存和加载检查点 pytorch

我制作一个模型并将配置保存为：

然后我想加载这个配置：

当我尝试时，这是错误：

我哪里做错了？

提前谢谢

python-3.x pytorch rnn checkpointing

2018-11-29T11:35:43.017

0 投票

1 回答

262 浏览

apache-spark - Spark Scala 检查点数据集在操作后显示 .isCheckpointed = false 但已写入目录

似乎有一些关于此的帖子，但似乎没有人回答我的理解。

以下代码在 DataBricks 上运行：

添加了各种改进：

问题一：

ds.rdd.isCheckpointed或ds2.rdd.isCheckpointed都返回False即使计数我有一个非懒惰的情况。为什么，特别是 ../loc 7 & 10 是用（部分）文件编写的？我们还可以看到 ReliableCheckPoint！

没有很好地解释整个概念。试图解决这个问题。

问题 2 - 次要问题：

最新版本的 Spark 2.4 是否真的需要缓存？ds 上的新分支，如果不缓存，会导致重新计算还是现在更好？不使用检查点数据似乎很奇怪，或者我们可以说 Spark 并不真正知道什么更好？

从高性能 Spark 我得到的混合印象是检查点不是那么推荐，但又是这样。

apache-spark apache-spark-sql checkpointing

2019-01-02T11:08:45.697

1 2 3 4 5 6 7 8 9 10

问题标签 [checkpointing]

Reference