问题标签 [checkpointing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

95 问题

0 投票

1 回答

12114 浏览

python - 如何在 pytorch 模型中加载检查点文件？

在我的 pytorch 模型中，我正在像这样初始化我的模型和优化器。

这是我的检查点文件的路径。

checkpoint_file = os.path.join(config.save_dir, "checkpoint.pth")

为了加载这个检查点文件，我检查检查点文件是否存在，然后我加载它以及模型和优化器。

另外，这是我保存模型和优化器的方式。

出于某种原因，每当我运行此代码时，我都会收到一个奇怪的错误。

有谁知道我为什么会收到这个错误？

2019-02-13T19:10:08.950

0 投票

0 回答

57 浏览

apache-spark - Spark 结构化和 Dstream 应用程序正在写入重复项

我们正在尝试编写将写入 hdfs 的 spark 流应用程序。但是，每当我们编写文件时，都会出现大量重复文件。无论我们是否使用 kill 使应用程序崩溃，这种行为都会发生。也适用于 Dstream 和结构化 api。来源是kafka主题。检查点目录的行为听起来很随机。我没有遇到关于这个问题的非常相关的信息。

问题是：检查点目录可以提供仅一次的行为吗？

任何帮助表示赞赏。谢谢，高塔姆

}

apache-spark streaming checkpointing

2019-02-14T15:46:47.417

0 投票

1 回答

1850 浏览

apache-spark-sql - 如何在pyspark中设置setCheckpoint

apache-spark-sql checkpointing

2019-02-17T04:42:23.740

0 投票

1 回答

457 浏览

jvm - Java 应用程序的 CRIU 用法

所以我想用CRIU做一个JVM进程的快照，以后再恢复。为此，我编写了一个小程序，它只做每秒打印一次计数器：

现在，当我运行程序$ java some.Fun 3000时，程序开始向我显示秒数，到目前为止一切都很好。

现在，当我想用 criu 存储进程时，我会$ ps -aux找到我的 java 进程的 PID（在本例中为 3503）并在其上调用 criu $ criu dump -t 3503 -o dump.log --shell-job。这样做后，带有计数器的终端停止计数，打印Killed并似乎终止。

此时在我调用 criu 的文件夹中，我得到了一些转储文件，可用于恢复进程$ criu restore -o dump.log --shell-job

当我这样做时，将创建一个具有新 PID 的新进程，并且计数器从它停止的那一刻开始计数，就像它应该的那样。好的！

但是，假设我终止了该进程并尝试使用相同的转储文件来恢复该进程。如果我这样做，criu 会立即终止并显示 message Aborted (core dumped)。如果我尝试在另一台机器上使用相同的 java 版本传输文件并尝试在那里运行它，也会发生同样的情况......

现在我的问题是：应该是这样吗？我们应该能够只恢复一次状态吗？还是我做错了什么？先感谢您！

jvm migration restore checkpointing

2019-04-08T12:58:05.463

0 投票

0 回答

98 浏览

python - 有没有办法导出/检查 OpenCV 背景减法以供以后使用？

有没有办法导出/检查 OpenCV 背景减法以供以后使用？

我有一些很长的视频文件需要处理，需要去除背景。我想将视频切成小块并分别处理每个块。但是，在这样做时，我需要为每个小视频块生成一个新的背景减法模型。这会侵蚀我在这些非常长的视频中的可用数据。

我可以以某种方式检查这个黑匣子吗？如果是这样，如何使用此导出的检查点信息启动视频？

版本信息

Python 3.6.4
OpenCV 3.4.1

（欢迎 C++ 用户回答，但首选 Python）

MWE

python opencv computer-vision background-subtraction checkpointing

2019-04-09T20:23:18.593

0 投票

2 回答

779 浏览

apache-flink - Apache Flink：IDE 执行中的作业恢复未按预期工作

我有一个WordCount用 Flink (Scala) 编写的示例流示例。在其中，我想使用外部检查点来在发生故障时进行恢复。但它没有按预期工作。

我的代码如下：

我第一次运行程序后得到的输出是：

第二次运行程序后得到的输出是：

我的期望是第二次运行程序应该给我以下输出：

由于我是 Apache Flink 的新手，我不知道如何达到预期的效果。谁能帮助我实现正确的行为？

apache-flink flink-streaming checkpointing

2019-04-14T20:06:06.317

0 投票

1 回答

3294 浏览

python - RuntimeError: cuda 运行时错误 (35) : CUDA 驱动程序版本对于torch/csrc/cuda/Module.cpp:51 的CUDA 运行时版本不足

当我尝试加载 pytorch 检查点时：

我懂了：

RuntimeError: cuda 运行时错误 (35) : CUDA 驱动程序版本对于torch/csrc/cuda/Module.cpp:51 的CUDA 运行时版本不足

我使用可用的 GPU 创建了检查点，但现在只有 CPU 可用。

如何加载检查点？

python pytorch checkpointing

2019-04-19T09:05:49.023

0 投票

0 回答

293 浏览

apache-flink - 无法完成 Apache Flink 中的快照错误

部署后我有一个反复出现的问题，我无法在本地重现。很高兴得到您的帮助。查看日志：

运营商：

apache-flink snapshot checkpointing

2019-04-21T08:28:49.823

0 投票

0 回答

77 浏览

gem5 - 如何在 gem5 checkpoints 中对不同 Segment 的不同 Checkpoints 进行统计？

我在Parsec benchmark的gem5模拟的ROI中创建了一些（比如 10 个）具有固定间隔的检查点。

然后我尝试使用以下命令恢复检查点

但我在m5out目录中获得了stats.txt文件。在该统计文件中，所有检查点的结果或统计数据以组合形式出现。

Q如何获取不同部分中不同检查点的输出，以便每个检查点的统计信息以不同的方式显示？

gem5 checkpointing

2019-06-18T05:21:52.797

0 投票

0 回答

658 浏览

spark-structured-streaming - Spark Structured Streaming：使用 hdfs 检查点位置读取增量文件时出错

我想在单台机器上本地运行 Spark Structured Streaming 作业。不幸的是，当作业在处理数据时中止时，从中止的作业中恢复不起作用（它失败，日志如下所示）。

（如果流式传输作业在等待新数据时中止，则恢复工作并正确读取检查点数据）。

java.lang.IllegalStateException: Error reading delta file, spark structure streaming with kafka表明原因可能是本地文件系统而不是 HDFS 用于存储检查点，但是在这种情况下检查点数据存储在 HDFS 中。

如果有人知道这样做的原因，那就太好了。

spark-structured-streaming checkpointing

2019-07-08T11:17:12.373

1 2 3 4 5 6 7 8 9 10

问题标签 [checkpointing]

Reference