问题标签 [checkpointing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
17 浏览

tensorflow - 在 Google Colab 中加载保存在 Google Drive 中的 Tensorflow 检查点时遇到问题

我一直在尝试从这个 GitHub对波动率实验进行超参数优化。

我在安装 Google Drive 的情况下运行它 Google Colab (Pro)。它可以很好地保存检查点,我什至可以在本地下载和加载检查点以继续超参数调整。无论出于何种原因,我都无法在 Google Colab 中加载它。每次都是从头开始。

这是我在 Google Colab 中输入的命令:

正如我所提到的,如果我在本地计算机上使用 Jupyter Notebook 运行类似的命令,它会从检查点加载并继续进行超参数调整。

0 投票
1 回答
50 浏览

apache-flink - Apache Flink Checkpointing(手动将值放入 RocksDB Checkpoint 并在恢复或重启期间检索)

我们有一个场景,我们必须将一些值持久化/保存到检查点中,并在故障恢复/应用程序重新启动期间将其取回。

我们遵循了一些诸如 ValueState、ValueStateDescriptor 之类的东西仍然无法正常工作。 https://github.com/realtime-storage-engine/flink-spillable-statebackend/blob/master/flink-spillable-benchmark/src/main/java/org/apache/flink/spillable/benchmark/WordCount.java

https://towardsdatascience.com/heres-how-flink-stores-your-state-7b37fbb60e1a https://github.com/king/flink-state-cache/blob/master/examples/src/main/java/com /king/flink/state/Example.java

我们不能将其外部化到数据库,因为它可能会导致一些性能问题。任何导致此问题的结果都将有助于使用检查点。如何放置和从检查点返回?

0 投票
1 回答
34 浏览

callstack - 使用 LD_PRELOAD 进行检查点——如何操作指令指针和调用堆栈?

LD_PRELOAD 技术允许我们向现有二进制文件提供我们自己的自定义标准库函数,覆盖标准函数或操纵它们的行为,提供一种有趣的方式来试验二进制文件并了解其行为。

我读过 LD_PRELOAD 可用于“检查点”程序——也就是说,在任何给定时间产生完整内存状态、调用堆栈和指令指针的记录——允许我们“重置”随意编程回到之前的状态。

我很清楚我们如何记录堆的状态。由于我们可以提供自己版本的 malloc 和相关函数,我们的预加载库显然可以完美地了解内存状态。

我想不通的是我们的预加载函数如何确定调用堆栈和指令指针;然后稍后将它们重置为先前记录的值。显然,这对于检查点是必要的。是否有可以做到这一点的标准库函数?还是需要不同的技术?

0 投票
2 回答
62 浏览

apache-kafka - 正确地将 Flink 状态发送到 Kafka

我正在构建一个 Kafka -> Flink -> Kafka 管道,它适用于描述的“会话”数据。我的输入 Kafka 主题具有以下格式的数据,并构成一个会话session_key

像这样的每个会话大约有 100 个事件长,快速进入(每 1-2 秒),所有事件共享相同session_key,我正在将会话转换为一系列 20 个左右的事件,进入输出主题。要构建这些事件,我需要了解整个会话,因此我需要等待end_event到达才能运行处理并将输出事件推送到输出主题。

实现相当简单——key by session_key, store start_eventinto ValueState, entries into ListState, 然后在end_event到达时对所有事件运行处理逻辑并将结果推送到输出 Kafka 主题中。

我的问题是关于检查点和可能的失败——假设检查点是在end_event离开 Kafka 之后开始的。偏移量已提交给 Kafka,检查点屏障到达我的处理操作员,该操作员在它之前失败(Kafka 现在已关闭)。

我应该如何正确地从中恢复?如果 Kafka 偏移量已经提交,并且没有end_event人会因此而脱离 Kafka,那么session_key以后如何触发处理操作符以获取我保存的状态?或者在这种情况下不会提交 Kafka 偏移量并且end_event会再次通过 Flink?

0 投票
0 回答
11 浏览

tensorflow - Tensorflow 2 部分恢复检查点

我有一个 MobileNetV2 模型,它有 28 个输出类(模型 1)。我还有另一个问题,它有 2 个输出类(模型 2)。我想使用模型 1 的权重来初始化模型 2,因为它们是一个类似的问题(例如迁移学习)。我不能只使用标准恢复,因为最终输出层权重不兼容。

有没有办法部分恢复模型,以便它忽略不兼容的权重,或者不太理想的是,手动按重量进行加权。

谢谢!