问题标签 [checkpointing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
12114 浏览

python - 如何在 pytorch 模型中加载检查点文件?

在我的 pytorch 模型中,我正在像这样初始化我的模型和优化器。

这是我的检查点文件的路径。

checkpoint_file = os.path.join(config.save_dir, "checkpoint.pth")

为了加载这个检查点文件,我检查检查点文件是否存在,然后我加载它以及模型和优化器。

另外,这是我保存模型和优化器的方式。

出于某种原因,每当我运行此代码时,我都会收到一个奇怪的错误。

有谁知道我为什么会收到这个错误?

0 投票
0 回答
57 浏览

apache-spark - Spark 结构化和 Dstream 应用程序正在写入重复项

我们正在尝试编写将写入 hdfs 的 spark 流应用程序。但是,每当我们编写文件时,都会出现大量重复文件。无论我们是否使用 kill 使应用程序崩溃,这种行为都会发生。也适用于 Dstream 和结构化 api。来源是kafka主题。检查点目录的行为听起来很随机。我没有遇到关于这个问题的非常相关的信息。

问题是:检查点目录可以提供仅一次的行为吗?

任何帮助表示赞赏。谢谢,高塔姆

}

}

0 投票
1 回答
1850 浏览

apache-spark-sql - 如何在pyspark中设置setCheckpoint

0 投票
1 回答
457 浏览

jvm - Java 应用程序的 CRIU 用法

所以我想用CRIU做一个JVM进程的快照,以后再恢复。为此,我编写了一个小程序,它只做每秒打印一次计数器:

现在,当我运行程序$ java some.Fun 3000时,程序开始向我显示秒数,到目前为止一切都很好。

现在,当我想用​​ criu 存储进程时,我会$ ps -aux找到我的 java 进程的 PID(在本例中为 3503)并在其上调用 criu $ criu dump -t 3503 -o dump.log --shell-job。这样做后,带有计数器的终端停止计数,打印Killed并似乎终止。

此时在我调用 criu 的文件夹中,我得到了一些转储文件,可用于恢复进程$ criu restore -o dump.log --shell-job

当我这样做时,将创建一个具有新 PID 的新进程,并且计数器从它停止的那一刻开始计数,就像它应该的那样。好的!

但是,假设我终止了该进程并尝试使用相同的转储文件来恢复该进程。如果我这样做,criu 会立即终止并显示 message Aborted (core dumped)。如果我尝试在另一台机器上使用相同的 java 版本传输文件并尝试在那里运行它,也会发生同样的情况......

现在我的问题是:应该是这样吗?我们应该能够只恢复一次状态吗?还是我做错了什么?先感谢您!

0 投票
0 回答
98 浏览

python - 有没有办法导出/检查 OpenCV 背景减法以供以后使用?

有没有办法导出/检查 OpenCV 背景减法以供以后使用?

我有一些很长的视频文件需要处理,需要去除背景。我想将视频切成小块并分别处理每个块。但是,在这样做时,我需要为每个小视频块生成一个新的背景减法模型。这会侵蚀我在这些非常长的视频中的可用数据。

我可以以某种方式检查这个黑匣子吗?如果是这样,如何使用此导出的检查点信息启动视频?

版本信息

  • Python 3.6.4
  • OpenCV 3.4.1

(欢迎 C++ 用户回答,但首选 Python)

MWE

0 投票
2 回答
779 浏览

apache-flink - Apache Flink:IDE 执行中的作业恢复未按预期工作

我有一个WordCount用 Flink (Scala) 编写的示例流示例。在其中,我想使用外部检查点来在发生故障时进行恢复。但它没有按预期工作。

我的代码如下:

我第一次运行程序后得到的输出是:

第二次运行程序后得到的输出是:

我的期望是第二次运行程序应该给我以下输出:

由于我是 Apache Flink 的新手,我不知道如何达到预期的效果。谁能帮助我实现正确的行为?

0 投票
1 回答
3294 浏览

python - RuntimeError: cuda 运行时错误 (35) : CUDA 驱动程序版本对于torch/csrc/cuda/Module.cpp:51 的CUDA 运行时版本不足

当我尝试加载 pytorch 检查点时:

我懂了:

RuntimeError: cuda 运行时错误 (35) : CUDA 驱动程序版本对于torch/csrc/cuda/Module.cpp:51 的CUDA 运行时版本不足

我使用可用的 GPU 创建了检查点,但现在只有 CPU 可用。

如何加载检查点?

0 投票
0 回答
293 浏览

apache-flink - 无法完成 Apache Flink 中的快照错误

部署后我有一个反复出现的问题,我无法在本地重现。很高兴得到您的帮助。查看日志:

运营商:

0 投票
0 回答
77 浏览

gem5 - 如何在 gem5 checkpoints 中对不同 Segment 的不同 Checkpoints 进行统计?

我在Parsec benchmarkgem5模拟的ROI中创建了一些(比如 10 个)具有固定间隔的检查点。

然后我尝试使用以下命令恢复检查点

但我在m5out目录中获得了stats.txt文件。在该统计文件中,所有检查点的结果或统计数据以组合形式出现。

Q如何获取不同部分中不同检查点的输出,以便每个检查点的统计信息以不同的方式显示?

0 投票
0 回答
658 浏览

spark-structured-streaming - Spark Structured Streaming:使用 hdfs 检查点位置读取增量文件时出错

我想在单台机器上本地运行 Spark Structured Streaming 作业。不幸的是,当作业在处理数据时中止时,从中止的作业中恢复不起作用(它失败,日志如下所示)。

(如果流式传输作业在等待新数据时中止,则恢复工作并正确读取检查点数据)。

java.lang.IllegalStateException: Error reading delta file, spark structure streaming with kafka表明原因可能是本地文件系统而不是 HDFS 用于存储检查点,但是在这种情况下检查点数据存储在 HDFS 中。

如果有人知道这样做的原因,那就太好了。