问题标签 [checkpointing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

95 问题

0 投票

0 回答

17 浏览

tensorflow - 在 Google Colab 中加载保存在 Google Drive 中的 Tensorflow 检查点时遇到问题

我一直在尝试从这个 GitHub对波动率实验进行超参数优化。

我在安装 Google Drive 的情况下运行它 Google Colab (Pro)。它可以很好地保存检查点，我什至可以在本地下载和加载检查点以继续超参数调整。无论出于何种原因，我都无法在 Google Colab 中加载它。每次都是从头开始。

这是我在 Google Colab 中输入的命令：

正如我所提到的，如果我在本地计算机上使用 Jupyter Notebook 运行类似的命令，它会从检查点加载并继续进行超参数调整。

tensorflow google-colaboratory checkpointing

2022-01-04T23:21:45.373

0 投票

1 回答

50 浏览

apache-flink - Apache Flink Checkpointing（手动将值放入 RocksDB Checkpoint 并在恢复或重启期间检索）

我们有一个场景，我们必须将一些值持久化/保存到检查点中，并在故障恢复/应用程序重新启动期间将其取回。

我们遵循了一些诸如 ValueState、ValueStateDescriptor 之类的东西仍然无法正常工作。 https://github.com/realtime-storage-engine/flink-spillable-statebackend/blob/master/flink-spillable-benchmark/src/main/java/org/apache/flink/spillable/benchmark/WordCount.java

https://towardsdatascience.com/heres-how-flink-stores-your-state-7b37fbb60e1a https://github.com/king/flink-state-cache/blob/master/examples/src/main/java/com /king/flink/state/Example.java

我们不能将其外部化到数据库，因为它可能会导致一些性能问题。任何导致此问题的结果都将有助于使用检查点。如何放置和从检查点返回？

apache-flink flink-streaming checkpointing

2022-01-19T05:34:04.460

0 投票

1 回答

34 浏览

callstack - 使用 LD_PRELOAD 进行检查点——如何操作指令指针和调用堆栈？

LD_PRELOAD 技术允许我们向现有二进制文件提供我们自己的自定义标准库函数，覆盖标准函数或操纵它们的行为，提供一种有趣的方式来试验二进制文件并了解其行为。

我读过 LD_PRELOAD 可用于“检查点”程序——也就是说，在任何给定时间产生完整内存状态、调用堆栈和指令指针的记录——允许我们“重置”随意编程回到之前的状态。

我很清楚我们如何记录堆的状态。由于我们可以提供自己版本的 malloc 和相关函数，我们的预加载库显然可以完美地了解内存状态。

我想不通的是我们的预加载函数如何确定调用堆栈和指令指针；然后稍后将它们重置为先前记录的值。显然，这对于检查点是必要的。是否有可以做到这一点的标准库函数？还是需要不同的技术？

callstack ld-preload checkpointing

2022-01-23T11:09:25.177

0 投票

2 回答

62 浏览

apache-kafka - 正确地将 Flink 状态发送到 Kafka

我正在构建一个 Kafka -> Flink -> Kafka 管道，它适用于描述的“会话”数据。我的输入 Kafka 主题具有以下格式的数据，并构成一个会话session_key：

像这样的每个会话大约有 100 个事件长，快速进入（每 1-2 秒），所有事件共享相同session_key，我正在将会话转换为一系列 20 个左右的事件，进入输出主题。要构建这些事件，我需要了解整个会话，因此我需要等待end_event到达才能运行处理并将输出事件推送到输出主题。

实现相当简单——key by session_key, store start_eventinto ValueState, entries into ListState, 然后在end_event到达时对所有事件运行处理逻辑并将结果推送到输出 Kafka 主题中。

我的问题是关于检查点和可能的失败——假设检查点是在end_event离开 Kafka 之后开始的。偏移量已提交给 Kafka，检查点屏障到达我的处理操作员，该操作员在它之前失败（Kafka 现在已关闭）。

我应该如何正确地从中恢复？如果 Kafka 偏移量已经提交，并且没有end_event人会因此而脱离 Kafka，那么session_key以后如何触发处理操作符以获取我保存的状态？或者在这种情况下不会提交 Kafka 偏移量并且end_event会再次通过 Flink？

apache-kafka apache-flink flink-streaming checkpointing

2022-01-30T22:21:49.383

0 投票

0 回答

11 浏览

tensorflow - Tensorflow 2 部分恢复检查点

我有一个 MobileNetV2 模型，它有 28 个输出类（模型 1）。我还有另一个问题，它有 2 个输出类（模型 2）。我想使用模型 1 的权重来初始化模型 2，因为它们是一个类似的问题（例如迁移学习）。我不能只使用标准恢复，因为最终输出层权重不兼容。

有没有办法部分恢复模型，以便它忽略不兼容的权重，或者不太理想的是，手动按重量进行加权。

谢谢！

tensorflow deep-learning checkpointing

2022-01-31T17:14:00.057

1 2 3 4 5 6 7 8 9 10