python - 如何以 python 方式检查长时间运行的函数？

Question

计算科学中的典型情况是有一个连续运行几天/几周/几个月的程序。由于硬件/操作系统故障是不可避免的，因此通常使用检查点，即不时保存程序的状态。如果发生故障，则从最新的检查点重新启动。

实现检查点的pythonic方法是什么？

例如，可以直接转储函数的变量。

或者，我正在考虑将此类函数转换为一个类（见下文）。函数的参数将成为构造函数的参数。构成算法状态的中间数据将成为类属性。pickle模块将有助于（反）序列化。

import pickle

# The file with checkpointing data
chkpt_fname = 'pickle.checkpoint'

class Factorial:
    def __init__(self, n):
        # Arguments of the algorithm
        self.n = n

        # Intermediate data (state of the algorithm)
        self.prod = 1
        self.begin = 0

    def get(self, need_restart):
        # Last time the function crashed. Need to restore the state.
        if need_restart:
            with open(chkpt_fname, 'rb') as f:
                self = pickle.load(f)

        for i in range(self.begin, self.n):
            # Some computations
            self.prod *= (i + 1)
            self.begin = i + 1

            # Some part of the computations is completed. Save the state.
            with open(chkpt_fname, 'wb') as f:
                pickle.dump(self, f)

            # Artificial failure of the hardware/OS/Ctrl-C/etc.
            if (not need_restart) and (i == 3):
                return

        return self.prod


if __name__ == '__main__':
    f = Factorial(6)
    print(f.get(need_restart=False))
    print(f.get(need_restart=True))

score 4 · Accepted Answer

通常答案是使用您最喜欢的序列化方法进行序列化，即 cpickle json 或 xml。Pickle 的优点是您可以反序列化整个对象而无需太多额外工作。

此外，将您的流程与您的状态分开是一个好主意，因此您只需序列化您的状态对象。很多对象不能被腌制，例如线程，但你可能想要运行许多工作人员（虽然要小心 GIL），所以腌制会抛出你尝试腌制它们的异常。您可以使用_getstate_并_setstate_ 删除导致问题的条目来解决此问题 - 但如果您只是将进程和状态分开，这不再是问题。

要检查点，请将您的检查点文件保存到已知位置，当您的程序开始时，检查该文件是否存在，如果不存在，则该进程尚未启动，否则加载并运行它。创建一个线程，通过排空任何工作线程正在处理的队列，然后保存您的状态对象，定期检查您正在运行的任务，然后重用您使用的恢复逻辑，以防在检查点后从恢复。

为了安全地检查点，您需要确保您的程序不会因在泡菜中死亡而损坏检查点文件。去做这个

在临时位置创建检查点并完成写入
将最后一个检查点重命名为checkpoint.old
将新检查点重命名为checkpoint.pickle
消除checkpoint.old
如果您启动程序并且没有检查点但有一个checkpoint.old，那么程序在第 2 步之后就死了，所以加载checkpoint.old，重命名checkpoint.old为checkpoint.pickle并正常运行。如果程序在其他任何地方都死了，您可以简单地重新加载checkpoint.pickle。

score 2 · Accepted Answer

如果您愿意将检查点作为首要关注点来编写代码，那么您建议的类结构是一个不错的选择。如果你想引入检查点作为事后的想法，尽管你可以使用一个特殊用途的检查点 Linux 包，比如这个，或者一个特定于 Python 的包，比如这个（我写的）。

score 1 · Accepted Answer

这是评论，不是答案。

随时检查和恢复 Python 函数、类或程序的通用机制将很难构建。简单的部分是检查点和恢复属性都是基本数据类型或基本数据类型集合的类实例的机制。然后一个get_state方法可以打包该类的运行实例的状态，一个restore_state(checkpointed_state)方法可以恢复该状态。

但是程序的许多部分并不是基本数据类型的集合。这些包括：

程序指针
对方法和函数的引用
打开文件句柄、网络套接字等。
运行子进程

这些都很难检查点和恢复，因为很难获得它们的全部状态，也很难恢复它们的状态。

因此，鉴于您希望检查点/恢复长时间运行的分析，我建议您使用更高级别的机制，例如 Docker 容器或 Linux 进程的检查点/恢复CRIU。请注意，这些并不能完全检查点并恢复所有状态，但它们所做的比您能够构建的要多。

python - 如何以 python 方式检查长时间运行的函数？

3 回答 3

Related

Reference