问题标签 [checkpointing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Apache Flink 中保存的默认检查点在哪里?
我是 Apache Flink 的新手,我正在浏览 Apache Flink 的示例。我发现如果发生故障,Flink 能够从检查点恢复流处理。
现在,我的问题是 Flink 默认将检查点保存在哪里?
任何帮助表示赞赏!
apache-flink - Flink 恰好一次 - sink 的检查点和屏障确认
我有一个带有接收器的 Flink 作业,它将数据写入 MongoDB。接收器是RichSinkFunction
.
启用外部检查点。间隔为 5000 磨,方案为 EXACTLY_ONCE。
- Flink 1.3 版,
- Kafka(源主题)0.9.0
我无法升级到TwoPhaseCommitSink
Flink 1.4。
我有几个疑问
- 接收器在哪个时间点确认检查点屏障,在调用函数开始时还是在调用完成时?意味着它在确认障碍之前等待持久(保存在 MongoDB 中)响应?
- 如果提交 checkpoint 是由异步线程完成的,那么 Flink 怎么能保证在作业失败的情况下只执行一次呢?如果接收器将数据保存到 MongoDB 但未提交检查点怎么办?我认为这最终会在重新启动时出现重复数据。
- 当我从 Flink 仪表板取消作业时,Flink 会完成异步检查点线程以完成还是硬 kill -9 调用?
tensorflow - tf.train.MonitoredTrainingSession 中的 tf.train.CheckpointSaverHook 是否会在检查点或异步完成时阻止训练?
我是 TensorFlow 的新手。我目前很想跟踪检查点的 IO 时间和带宽(最好是检查点训练过程中所用 IO 时间的百分比),这是由高级提供的内部检查点机制执行的tf.train.MonitoredTrainingSession
,可以通过添加一段 tf.train.CheckpointSaverHook
时间来初始化tf.train.MonitoredTrainingSession
.
我正在考虑使用一个tf.train.CheckpointSaverListener
(即使用before_save
和after_save
方法)来记录时间和跟踪IO。但是我有一个问题,我正在考虑的这种日志记录技术会给我一个适当的百分比计算(即Time taken for checkpointing IO / Time taken for Training * 100%
)吗?
我怀疑,这个检查点是通过与训练不同的线程异步完成的。我一直在研究 TensorFlow 代码以找出答案,但我认为在这里提出这个问题可以加速我的探索。
我愿意接受任何关于使用任何其他替代技术的建议(例如使用 TensorBoard、IO 分析工具等)
python-3.x - 在 VGG-16 上停止和重新开始训练
我正在使用预训练的 VGG-16 模型进行图像分类。我正在添加自定义最后一层,因为我的分类类的数量是 10。我正在为模型训练 200 个时期。
我的问题是:如果我在某个时期随机停止(通过关闭 python 窗口)训练,有什么办法吗?比如说没有。50 和从那里恢复?我已经阅读了有关保存和重新加载模型的信息,但我的理解是这仅适用于我们的自定义模型,而不适用于 VGG-16 等预训练模型。
apache-spark - Kafka 代理的 Spark 结构化流式更改 - 对检查点的影响
我们有一个使用内部管理的 Kafka 在生产中运行的 spark 结构化流应用程序(让我们称之为kafka-inhouse
)
我们决定迁移到aiven kafka cloud
.
假设:
我们消费来自 的所有消息
kafka-inhouse
,然后将新消息发布到aiven kafka cloud
我们存储 Kafka 消息(使用 spark 流应用程序)的 S3 中的
path
和checkpoint
没有改变。
问题:
Spark 结构化流是否会无缝管理 Kafka 代理中的变化,尤其是在checkpointing
我们迁移之后?
python-3.x - Keras 回调不断跳过保存检查点,声称缺少 val_acc
我将运行一些更大的模型并想尝试中间结果。
因此,我尝试在每个 epoch 之后使用检查点来保存最佳模型。
这是我的代码:
但是在第一个时代之后我仍然收到警告:
添加metrics=['accuracy']
到模型中的是其他 SO 问题(例如Unable to save weights while using pre-trained VGG16 model)解决方案,但这里的错误仍然存在。
tensorflow - 通过 import_meta_graph 加载元图时出现 ImageProjectiveTransformV2 错误
我正在尝试使用加载训练网络“name.ckpt-1.meta”的元图,tf.train.import_meta_graph("./name.ckpt-1.meta")
但出现以下错误:
我不明白原因,也没有在其他地方看到同样的东西,我不确定是因为 tensorflow 版本或其他原因。
python-3.x - 保存和加载检查点 pytorch
我制作一个模型并将配置保存为:
然后我想加载这个配置:
当我尝试时,这是错误:
我哪里做错了?
提前谢谢
apache-spark - Spark Scala 检查点数据集在操作后显示 .isCheckpointed = false 但已写入目录
似乎有一些关于此的帖子,但似乎没有人回答我的理解。
以下代码在 DataBricks 上运行:
添加了各种改进:
返回:
问题一:
ds.rdd.isCheckpointed或ds2.rdd.isCheckpointed都返回False即使计数我有一个非懒惰的情况。为什么,特别是 ../loc 7 & 10 是用(部分)文件编写的?我们还可以看到 ReliableCheckPoint!
没有很好地解释整个概念。试图解决这个问题。
问题 2 - 次要问题:
最新版本的 Spark 2.4 是否真的需要缓存?ds 上的新分支,如果不缓存,会导致重新计算还是现在更好?不使用检查点数据似乎很奇怪,或者我们可以说 Spark 并不真正知道什么更好?
从高性能 Spark 我得到的混合印象是检查点不是那么推荐,但又是这样。